python爬虫 库_常用Python爬虫库汇总

1

/

8

常用

Python

爬虫库汇总

Python

爬虫,全称

Python

网络爬虫,是一种按照一定的规则,自动地抓取

万维网信息的程序或脚本,

主要用于抓取证券交易数据、

天气数据、

网站用户数

据和图片数据等,

Python

为支持网络爬虫正常功能实现,内置了大量的库,主

要有以下类型:

一、

Python

爬虫网络库

Python

爬虫网络库主要包括:

urllib

requests

grab

pycurl

urllib3

httplib2

RoboBrowser

MechanicalSoup

mechanize

socket

Unirest

for

Python

hyper

PySocks

treq

以及

aiohttp

等。

二、

Python

网络爬虫框架

Python

网络爬虫框架主要包括:

grab

scrapy

pyspider

cola

portia

restkit

以及

demiurge

等。

三、

HTML/XML

解析器

lxml

C

语言编写高效

HTML/ XML

处理库,支持

XPath

cssselect

:解析

DOM

树和

CSS

选择器;

pyquery

:解析

DOM

树和

jQuery

选择器;

BeautifulSoup

:低效

HTML/ XML

处理库,纯

Python

实现;

html5lib

:根据

WHATWG

规范生成

HTML/ XML

文档的

DOM

,该规范被用在现

在所有的浏览器上;

feedparser

:解析

RSS/ATOM feeds

MarkupSafe

:为

XML/HTML/XHTML

提供了安全转义的字符串;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值