爬虫程序中-代理服务器的设置

最新推荐文章于 2024-05-27 08:52:59 发布

moll_77

最新推荐文章于 2024-05-27 08:52:59 发布

阅读量1.9k

点赞数 2

分类专栏： python爬虫知识文章标签：代理服务器爬虫

本文链接：https://blog.csdn.net/moll_77/article/details/78607721

版权

我们知道，很多网站上现在都装有反爬虫程序。当我们在爬取某一网站的时候，如果被网站中的反爬虫程序识别，那么我们可能就会进入"黑名单”，会被该网站服务器所屏蔽。

如何很好的解决这个问题呢，如果显示的ip地址不是本机ip地址，而是代理服务器的ip地址。那么就有效的解决了这个问题。

接下来，我们来介绍如何在python爬虫中，使用代理服务器。

方法1：可以在互联网中搜索对应得代理服务器地址。这里我们有已经整理好的，网址：http://www.xicidaili.com/

这里我们使用验证时间较短的，这样成功的概率比较大。比如

接下来我将选用北京的这个ip地址。

以下是使用代理服务器来爬取网站内容的实现代码

#通过代理服务器来爬虫
def use_proxy(proxy_addr,url):
    import urllib.request
    proxy=urllib.request.ProxyHandler({"htt

关注