1
/
8
常用
Python
爬虫库汇总
Python
爬虫,全称
Python
网络爬虫,是一种按照一定的规则,自动地抓取
万维网信息的程序或脚本,
主要用于抓取证券交易数据、
天气数据、
网站用户数
据和图片数据等,
Python
为支持网络爬虫正常功能实现,内置了大量的库,主
要有以下类型:
一、
Python
爬虫网络库
Python
爬虫网络库主要包括:
urllib
、
requests
、
grab
、
pycurl
、
urllib3
、
httplib2
、
RoboBrowser
、
MechanicalSoup
、
mechanize
、
socket
、
Unirest
for
Python
、
hyper
、
PySocks
、
treq
以及
aiohttp
等。
二、
Python
网络爬虫框架
Python
网络爬虫框架主要包括:
grab
、
scrapy
、
pyspider
、
cola
、
portia
、
restkit
以及
demiurge
等。
三、
HTML/XML
解析器
lxml
:
C
语言编写高效
HTML/ XML
处理库,支持
XPath
;
cssselect
:解析
DOM
树和
CSS
选择器;
pyquery
:解析
DOM
树和
jQuery
选择器;
BeautifulSoup
:低效
HTML/ XML
处理库,纯
Python
实现;
html5lib
:根据
WHATWG
规范生成
HTML/ XML
文档的
DOM
,该规范被用在现
在所有的浏览器上;
feedparser
:解析
RSS/ATOM feeds
;
MarkupSafe
:为
XML/HTML/XHTML
提供了安全转义的字符串;