- 博客(6)
- 收藏
- 关注
原创 爬虫基础 || 2.1 Requrst 高级用法
request库之所以强大,是因为他除了基础访问外,就可以上传文件,设置cookies,设置代理等。 1.上传文件 上传文件非常简单,这里上传在上一个文章里下载的文件。一般上传文件都用的post请求。 import requests file = {'file':open('bnaiduico.ico','rb')} r = requests.post('http://httpbin.or...
2020-02-29 13:13:49
531
原创 爬虫基础 || 2.1 request介绍(功能比urllib丰富,附上简单的知乎爬虫)
之前已经差不多将urllib的所有功能介绍完毕,但是对于urllib来说,有许多不方便的地方,比如处理复杂请求的时候,都需要Opener和Handler来处理。而requests库,他集合了诸多功能,能够使爬虫更加简易 import requests response = requests.get('https://www.baidu.com') # 这里的get就是get请求 prin...
2020-02-17 16:10:22
830
原创 爬虫基础 || 1.4 异常处理与链接解析
1.异常处理 在已经掌握了基本的爬虫技能,但是如果再发送请求中出现异常,如网络不好,请求被拒等情况,就可能出现报错而终止运行程序。 urllib的error模块定义了由request模块产生的异常。如果出现了问题,request模块便会爆出error模块中定义的异常。现在就使用error模块来处理各种异常。 1.1URLErrror URLError类来自urllib的error模块,它继...
2020-02-13 14:37:13
628
原创 爬虫基础 || 1.3 Handler辅助(验证,代理,cookies)
我们虽然可以构造请求,但是对于一些更高级的操作(比如 Cookies 处理、 代 理设置等),我们该怎么办呢? 接下来,就需要更强大的工具 Handler。 简而言之,我们可以把它理解为各种处理器,有专门处理登录验证的,有处理 Cookies 的,有处理代理设置的。 利用它们,我们几乎可以做到 HTTP 请求中所有的事情。 首先,介绍一下 urllib.request模块里的BaseHand...
2020-02-13 14:21:51
404
原创 爬虫基础 || 1.2 urllib.request
疫情爆发的第20天,更新了一点内容~~ 我们知道利用 urlopen()方法可以实现最基本请求的发起,但这几个简单的参数并不足以构建一 个完整的请求。 如果请求中需要加入 Headers 等信息,就可以利用更强大的 Request 类来构建。 我们依然是用 urlopen()方法来发送这个请求,只不过这次该方法的参数不再是 URL, 而是一个 Request 类型的对象。 通过构造这个数据结构,...
2020-02-11 15:40:46
193
原创 爬虫基础 || 1.1 urllib 基础介绍
疫情爆发的第20天,在家办公,比较闲。 曾经作为一名爬虫工程师,已经一年多没写过爬虫了,这几天翻了翻资料和崔老师的《网络爬虫开发》,对爬虫做一次复习,顺便写下这篇学习笔记,慢慢更新,欢迎大家交流学习~~ 这篇写的是爬虫基础库urllib的一下基础知识。他包含下面四个主类。 ============================================================...
2020-02-11 12:31:32
886
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人