这节课花了我50块钱，清华大学教授教你怎么从零开始学爬虫

随遇啊

于 2020-12-12 13:33:41 发布

阅读量125

点赞数

文章标签： python

原文链接：https://www.jianshu.com/p/56881b5eba0b

版权

其实学习爬虫也挺简单，主要就是三个步骤

1.抓取网页

2.分析网页

3.保存数据

抓取网页
urllib库
urllib库下主要分成四个模块

1.request 模拟发送请求

2.error 异常处理模块

3.parse 处理URL（拆分，解析，合并）

4.robotparser 识别robot.txt文件，判断网页是否可爬

request模块

urlopen（）方法（默认GET）：

常用参数列表：url，data（如果传递该参数，则用POST方法在表单中传递），timeout

Request 构造复杂的请求对象

常用参数列表：url，data，headers={ }，请求方的host/IP，请求是否无法验证，method

还可以用add_header()方法添加请求头

高级方法（涉及到验证，cookies，代理等问题）

基本思路创建对象 ——> 创建句柄（handler）——> 创建opener

error模块

URLError

所有异常类的基类，能够处理所有request模块产生的异常

属性：reason

HTTPError

URLError的子类，专门用于处理HTTP请求错误

属性：code reason headers

parse模块
urlparse() <——> urlunparse () 协议://域名/路径；参数？查询条件#锚点

urlsplit() <——> urlunsplit() 同上，不解析参数部分

urljoin（）拼合两个url

urlencode（）接收字典参数，传递给url参数字段

parse_qs() 把GET请求参数转化为字典

parse_qsl（）把GET请求参数转化为元组的列表

quote（） <——> unquote() 中文字符与url编码格式转化

robotparser模块
判断爬虫和搜索引擎哪些页面可抓取（不可抓取） robot.txt

RobotFileParser对象方法：

1.set_url() 也可在创建对象时初始化url

2.read() 读取robot.txt文件，必须调用

3.parse() 解析robot.txt文件

4.can_fetch() 参数：User-agent,url 是否可以抓取 True/False

5.mtime() 上次抓取和分析robot.txt的时间

6.modified（）更新抓取和分析robot.txt的时间

推荐一下我建的python学习交流扣扣qun：850973621，群里有免费的视频教程，开发工具、
电子书籍、项目源码分享。一起交流学习，一起进步！

QQ截图20201205144328.png

作者：zhangyutong_dut
链接：https://www.jianshu.com/p/56881b5eba0b
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
这节课花了我50块钱，清华大学教授教你怎么从零开始学爬虫

其实学习爬虫也挺简单，主要就是三个步骤1.抓取网页2.分析网页3.保存数据抓取网页urllib库urllib库下主要分成四个模块1.request   模拟发送请求2.error     异常处理模块3.parse    处理URL（拆分，解析，合并）4.robotparser   识别robot.txt文件，判断网页是否可爬request模块urlopen（）方法（默认GET）：常用参数
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。