python爬虫学习之路(4) User Agent和代理IP

最新推荐文章于 2020-12-11 12:22:23 发布

QEcode

最新推荐文章于 2020-12-11 12:22:23 发布

阅读量489

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/QEcode/article/details/81038204

版权

python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、为何要设置User Agent

有一些网站不喜欢被爬虫程序访问，所以会检测连接对象，如果是爬虫程序，也就是非人点击访问，它就会不让你继续访问，所以为了要让程序可以正常运行，需要隐藏自己的爬虫程序的身份。此时，我们就可以通过设置User Agent的来达到隐藏身份的目的，User Agent的中文名为用户代理，简称UA。

User Agent存放于Headers中，服务器就是通过查看Headers中的User Agent来判断是谁在访问。在Python中，如果不设置User Agent，程序将使用默认的参数，那么这个User Agent就会有Python的字样，如果服务器检查User Agent，那么没有设置User Agent的Python程序将无法正常访问网站。

二、常见的User Agent

1.Android

Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19
Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30
Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
2.Firefox

Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0
Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0
3.Google Chrome

Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36
Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19
4.iOS

Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3
Mozilla/5.0 (iPod; U; CPU like Mac OS X; en) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/3A101a Safari/419.3
上面列举了Andriod、Firefox、Google Chrome、iOS的一些User Agent，直接copy就能用。

三、设置User Agent的方法
想要设置User Agent，有两种方法：
1.在创建Request对象的时候，填入headers参数(包含User Agent信息)，这个Headers参数要求为字典；
2.在创建Request对象的时候不添加headers参数，在创建完成之后，使用add_header()的方法，添加headers。

四、IP代理的使用
1.为何使用IP代理
User Agent已经设置好了，但是还应该考虑一个问题，程序的运行速度是很快的，如果我们利用一个爬虫程序在网站爬取东西，一个固定IP的访问频率就会很高，这不符合人为操作的标准，因为人操作不可能在几ms内，进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值，如果一个IP访问频率超过这个阈值，说明这个不是人在访问，而是一个爬虫程序。
一个很简单的解决办法就是设置延时，但是这显然不符合爬虫快速爬取信息的目的，所以另一种更好的方法就是使用IP代理。使用代理的步骤：

(1)调用urlib.request.ProxyHandler()，proxies参数为一个字典。
什么是Handler？Handler也叫作处理器，每个handlers知道如何通过特定协议打开URLs，或者如何处理URL打开时的各个方面，例如HTTP重定向或者HTTP cookies。
(2)创建Opener
什么是opener？python在打开一个url链接时，就会使用opener。其实，urllib.request.urlopen()函数实际上是使用的是默认的opener，只不过在这里我们需要定制一个opener来指定handler。
(3)安装Opener
install_opener 用来创建（全局）默认opener，这个表示调用urlopen将使用你安装的opener。

使用install_opener方法之后，会将程序默认的urlopen方法替换掉。也就是说，如果使用install_opener之后，在该文件中，再次调用urlopen会使用自己创建好的opener。如果不想替换掉，只是想临时使用一下，可以使用opener.open(url)，这样就不会对程序默认的urlopen有影响。

3.代理IP选取
在写代码之前，先在代理IP网站选好一个IP地址，推荐西刺代理IP。
注意：当然也可以写个正则表达式从网站直接爬取IP
编写代码访问http://ip.chinaz.com/getip.aspx，该网站是测试自己IP为多少的网址，服务器会返回访问者的IP。

from urllib import request


if __name__ == '__main__':
    # 网址
    url = 'http://ip.chinaz.com/getip.aspx'
    # 代理ip
    proxy = {"http": "119.136.145.203:808"}
    # 创建proxyHandler
    proxy_support = request.ProxyHandler(proxy)
    # 创建opener
    opener = request.build_opener(proxy_support)
    # 添加User-Angent
    # opener.add_handlers = [("User-Agent", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36")]
    #安装opener
    request.install_opener(opener)
    # 使用安装好的opener
    # response = opener.open(url)
    response = request.urlopen(url)
    # 获取信息并解码
    html = response.read().decode("utf-8")
    print(html)