![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫
叮叮叮会过去的
路漫漫其修远兮,吾将上下而求索。
展开
-
python爬虫④-----requests高级用法
requests高级用法设置请求头 设置代理服务器IP cookie session设置请求头(headers)在爬虫操作中,经常需要携带请求头信息(比如User-Agent、Referer、Host、Origin、Cookie)才能正常访问。User-Agent : 浏览器名称,服务器可以知道该请求是从哪个浏览器过来的,在爬虫中经常需要设置这个参数来伪装我们的请求是从浏览...原创 2019-10-25 14:23:04 · 893 阅读 · 0 评论 -
python爬虫③-----requests库(基础)
10.24 程序员快乐结束,也是新的开始。requests的安装pip install requests发送get请求发送GET请求,直接调用requests.get()就可以了,想要发送什么类型的请求,就调用什么方法。代码示例: # 引入requests库 import requests # 向指定的url发送请求,并返回...原创 2019-10-24 09:10:14 · 330 阅读 · 0 评论 -
python爬虫②-----urllib高级用法
对于大多数网站来说,如果网站发现你是爬虫程序,会禁止你的访问,从而让你获取不到你想要的数据。所以,我们要尽可能的伪装自己,像是真人从浏览器访问访问的一样。通常防止爬虫被反主要有以下几个策略:动态设置请求头headers(User-Agent)(随机切换User-Agent,模拟不同用户的浏览器信息)使用IP地址池:VPN和代理IP,现在大部分网站都是根据IP来ban的Cookie...原创 2019-10-23 11:10:07 · 378 阅读 · 0 评论 -
python爬虫①-----urllib库(基础用法)
urllib库urllib库介绍它是 Python 内置的HTTP请求库,也就是说我们不需要额外安装即可使用,它包含四个模块(主要对前三个模块进行学习):request : 它是最基本的 HTTP 请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有额外的参数,就可以模拟实现这个过程了。error : 异常处理模块,如果出现请...原创 2019-10-23 10:39:39 · 167 阅读 · 0 评论