新人不会自己搭建代理池?快来引用大佬的
对于新人学习爬虫来说,虽然不会爬取太难的网站,但是有时候爬取的数据量过大的时候,也会遇到返回不了数据的问题,这时候打开网页一看.可能会看到"你的ip访问频率太高"这样的提示,出现这种问题的原因可能是,你被封ip啦.
但是爬虫不是还得继续不是吗?这时候就需要借助代理来突破自己ip访限制或者隐藏自己的ip来防止被封锁,关于代理则可以搭建代理池来解决,让网站防不胜防,但是都说了咱是新人!!!怎么会搭建代理池那玩意,这时候就需要像牛顿学习,站在巨人的肩膀上,借用他人的代理池来完成爬虫.
在这里我们借用了崔大写的开源代理池代理池地址 ,具体的运行方法崔大已经写好了,在这里我就想把自己运行这个代理池所遇到的问题做个总结
注:我在这里用的是windows系统.
1 关于代理池的下载前提
下载代理池 首先你需要创建一个github账号然后安装git,具体的流程请看git,因为git的安装在官网下载那简直是龟速,这里我分享我的网盘链接给大家,链接:https://pan.baidu.com/s/1gb6mPItCl9OLOAWSlryZMA
提取码:q1o4
(这个版本不是最新的)
2 关于代理池的下载
安装好git了我们打开cmd运行命令符,移动到想安装的盘,然后做出输入git clone https://github.com/Python3WebSpider/ProxyPool.git ,这样代理池就下载到本地啦,具体步骤如下图
3 关于运行所需要的条件
在这里我选择的是常规方式运行,没有用到docker,关于常规方式运行,需要满足以下条件
1.Python>=3.6
2. Redis
3. 安装依赖包
关于python的下载在这里推荐anaconda下载,安装最新的anaconda就好啦(虽然后面无法安装tensorflow,不过我们只爬虫的嘛),anaconda的安装教程地址是https://blog.csdn.net/weixin_43715458/article/details/100096496,当然如果你安装过anaconda或者python请略过这步,但是请确保你的python版本.后面打开代理池我用的是pycharam所以在这里在放一个链接关于anaconda安装与pycharm的配置anaconda与pycharm配置,啥都没有安装的请从次链接开始.
关于Redis的安装教程请参考此此链接Redis安装
另外redis常用的可视化工具 Redis Desktop Manager,但是0.9.4以上要给钱的,不过这里有免费的版本,链接redis可视化工具下载
关于依赖包的安装需要在虚拟环境下安装,这里我使用的是conda创建的虚拟环境,虚拟环境的安装请参考此链接conda安装虚拟环境,在这里继续强调你的python版本不能低于3.6,虚拟环境安装好了 请开启你的虚拟环境 然后移动到你代理池的文件位置,运行这个命令
pip3 install -r requirements.txt(安装了anaconda的命令为pip install -r requirements.txt),具体情况如下图所示
注:这里yu是我的虚拟环境名称 我已经安装好了依赖包了 这里做了个演示.
4 关于运行
关于运行其实也没啥好说的了,打开你的pycharm打开前面下载的代理池文件就好啦,这里对崔大写的一些做下解释,
关于这里 其实就在你的setting.py文件里的这里
你可以根据自己的情况进行修改,
关于这里
同样在setting.py文件里的
你可以根据自己的需要修改测试地址,构建专属于你所爬网站的代理池.
最后,打开你的 run.py文件点运行就能愉快的开启代理池啦.
原文链接:https://blog.csdn.net/weixin_48257295/article/details/107707037