目录
上一篇博文UN Comtrade(联合国商品贸易统计数据库)数据爬取Python代码讲了如何使用Python爬取UN comtrade数据,适用于少量数据爬取,由于网站对访问频率和访问量的限制,大量下载数据时访问会被限制,不过访问量限制是针对每个IP的,所以在上一篇文章也提到使用动态改变IP的方法来解决该问题,本文讲述两种改变IP的方法。

Virtual Private Network
虚拟专用网络,不懂的保留首字母大写,虚拟专用网络允许你将计算机连接到远程网络,实现改变IP的功能,通过虚拟专用网络切换上海和南京的IP:

(PS:百度直接输入IP可以查看本机IP)
改变了IP就可以刷新UN comtrade网站访问限制。虚拟专用网络有的话可以试试,但是我更推荐使用下面要讲的代理服务器方法。其实现在很多代理都是同时提供代理服务和虚拟专用网络服务。
代理服务器
这是爬虫常用的方法,可以理解为远程有另一台电脑(代理服务器)帮你访问网站。当你需要访问UN数据库时,代理服务器代替你进行访问,收集你需要的信息,随之将其返送给你。通过不断的切换代理服务器,就可以达到不断使用新IP的目的,从而刷新UN comtrade网站的访问限制。
下面基于上一篇博客代码基础上添加使用代理ip功能,使用时需要根据具体代理来补充Get_new_ip_port函数,这里不具体推荐代理品牌,需要推荐可以私信,也可以参考爬虫代理哪家强?十大付费代理详细对比评测出炉!进行选择。

本文介绍了如何通过Python使用代理IP爬取UNComtrade(联合国商品贸易统计数据库)大量数据,以避免访问限制。主要方法包括虚拟专用网络(VPN)和代理服务器,重点讲解了代理服务器的使用,并提供了代码示例,演示了如何动态获取并切换代理IP,以及如何测试代理IP是否生效。
最低0.47元/天 解锁文章
7271

被折叠的 条评论
为什么被折叠?



