关于爬虫工具。

最新推荐文章于 2024-08-09 08:28:18 发布

迷路的飞猪

最新推荐文章于 2024-08-09 08:28:18 发布

阅读量4.3k

点赞数 1

分类专栏：其他模块

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/love629891/article/details/79473114

版权

其他模块专栏收录该内容

5 篇文章 0 订阅

订阅专栏

请求获取网页信息类工具：urllib，urllib3，requests

注：在python2.x里面有urllib和urllib2;在python3.x里面就把urllib和urllib2合成一个urllib;urllib3是在python3.x了里面新增的第三方扩展.Requests它会比urllib更加方便，可以节约我们大量的工作。（用了requests之后，你基本都不愿意用urllib了）一句话，requests是python实现的最简单易用的HTTP库，建议爬虫使用requests库。

基本用法：

import requests

res=requests.get('http://www.julongyoule.cn') #获取，返回一个http请求response

res.encoding='utf-8' #可以指定编码，不然中文会乱码

res.text #取得http相应的html代码

解析网页数据工具：beautifulsoup,etree,Selecter等。（个人掌握etree和beautifulsoup就ok了）

etree基本用法：（配合xpath）

from lxml import etree

etree.HTML(res.text).xpath('//a/@href')

#返回一个列表，注意解析的必须是html代码，requests返回的response的text

beautifulsoup基本用法（利用css选择方式select）：

from bs4 import Beautifulsoup

soup=Beautifulsoup(res.text,'lxml') #注意解析的必须是html代码，requests返回的response的text

a_list=soup.select('a') #返回的是一个列表必须在for循环中使用a['href']才能取得链接

Selecter基本用法（scrapy框架所使用的解析器）：

from parsel import Selecter

sel_list=Selector(text=res.text).xpath('//a/@href').extract() #返回的也是一个列表，注意这里的extract(),与etree的区别

迷路的飞猪

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。