今天学习了代理服务器的一些知识。爬虫时,我们可能会高频访问一个网页,可能会被网页检查到异常,封IP。这时我们使用代理功能。
代理的几种功能:
- 突破自身IP访问限制,访问国外站点
- 访问一些单位或团体内部资源。扩展: 某大学FTP(前提是该代理地址在该资源的允许访问范国之内),使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务。
- 提高访问速度扩展。通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时, 则直接由缓冲区中取出信息,传给用户,以提高访问速度,
- 隐藏真实IP。扩展:上网者也可以通过这种方法隐藏自己的IP,免受攻击.
我们在使用代理时需要使用到handler请求定制
handler = urllib.request.ProxyHandler(proxy = x)
opener = urllib.request.build_opener(handler)
response = opener .open(request)
x的值以字典的形式存在,在网上得到代理IP以及PORT,'http':'ip:port'。
今天就这些,8