这节课花了我50块钱,清华大学教授教你怎么从零开始学爬虫

其实学习爬虫也挺简单,主要就是三个步骤

1.抓取网页

2.分析网页

3.保存数据

抓取网页
urllib库
urllib库下主要分成四个模块

1.request   模拟发送请求

2.error     异常处理模块

3.parse    处理URL(拆分,解析,合并)

4.robotparser   识别robot.txt文件,判断网页是否可爬

request模块

  1. urlopen()方法(默认GET):

常用参数列表:url,data(如果传递该参数,则用POST方法在表单中传递),timeout

  1. Request 构造复杂的请求对象

常用参数列表:url,data,headers={ },请求方的host/IP,请求是否无法验证,method

还可以用add_header()方法添加请求头

  1. 高级方法(涉及到验证,cookies,代理等问题)

基本思路    创建对象  ——>  创建句柄(handler)——> 创建opener

error模块

  1. URLError

所有异常类的基类,能够处理所有request模块产生的异常

属性:reason

  1. HTTPError

URLError的子类,专门用于处理HTTP请求错误

属性:code   reason   headers

parse模块
urlparse()   <——>   urlunparse ()    协议://域名/路径;参数?查询条件#锚点

urlsplit()   <——>   urlunsplit()     同上,不解析参数部分

urljoin()拼合两个url

urlencode()  接收字典参数,传递给url参数字段

parse_qs()  把GET请求参数转化为字典

parse_qsl() 把GET请求参数转化为元组的列表

quote() <——> unquote()     中文字符与url编码格式转化

robotparser模块
判断爬虫和搜索引擎哪些页面可抓取(不可抓取)  robot.txt

RobotFileParser对象方法:

1.set_url()     也可在创建对象时初始化url

2.read()   读取robot.txt文件,必须调用

3.parse()   解析robot.txt文件

4.can_fetch()   参数:User-agent,url     是否可以抓取  True/False

5.mtime()   上次抓取和分析robot.txt的时间

6.modified()  更新抓取和分析robot.txt的时间

推荐一下我建的python学习交流扣扣qun:850973621,群里有免费的视频教程,开发工具、
电子书籍、项目源码分享。一起交流学习,一起进步!

QQ截图20201205144328.png

作者:zhangyutong_dut
链接:https://www.jianshu.com/p/56881b5eba0b
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值