python爬虫库_常用Python爬虫库汇总

weixin_39976748

于 2020-11-24 03:29:42 发布

阅读量176

点赞数

文章标签： python爬虫库

1

/

8

常用

Python

爬虫库汇总

Python

爬虫，全称

Python

网络爬虫，是一种按照一定的规则，自动地抓取

万维网信息的程序或脚本，

主要用于抓取证券交易数据、

天气数据、

网站用户数

据和图片数据等，

Python

为支持网络爬虫正常功能实现，内置了大量的库，主

要有以下类型：

一、

Python

爬虫网络库

Python

爬虫网络库主要包括：

urllib

、

requests

、

grab

、

pycurl

、

urllib3

、

httplib2

、

RoboBrowser

、

MechanicalSoup

、

mechanize

、

socket

、

Unirest

for

Python

、

hyper

、

PySocks

、

treq

以及

aiohttp

等。

二、

Python

网络爬虫框架

Python

网络爬虫框架主要包括：

grab

、

scrapy

、

pyspider

、

cola

、

portia

、

restkit

以及

demiurge

等。

三、

HTML/XML

解析器

lxml

：

C

语言编写高效

HTML/ XML

处理库，支持

XPath

；

cssselect

：解析

DOM

树和

CSS

选择器；

pyquery

：解析

DOM

树和

jQuery

选择器；

BeautifulSoup

：低效

HTML/ XML

处理库，纯

Python

实现；

html5lib

：根据

WHATWG

规范生成

HTML/ XML

文档的

DOM

，该规范被用在现

在所有的浏览器上；

feedparser

：解析

RSS/ATOM feeds

；

MarkupSafe

：为

XML/HTML/XHTML

提供了安全转义的字符串；

weixin_39976748

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫库_常用Python爬虫库汇总

1/8常用Python爬虫库汇总Python爬虫，全称Python网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或脚本，主要用于抓取证券交易数据、天气数据、网站用户数据和图片数据等，Python为支持网络爬虫正常功能实现，内置了大量的库，主要有以下类型：一、Python爬虫网络库Python爬虫网络库主要包括：urllib、requests、grab、pycurl、urllib3、ht...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。