![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
DJCWDCN
这个作者很懒,什么都没留下…
展开
-
使用Python爬虫建立本地IP代理池
最近在玩爬虫,发现有些网站对于IP的访问频率有限制,所以写了一段简单的代码从IP代理网站爬取代理IP以供使用(保存文件的格式为“json”类型),代码如下:import re,telnetlibimport urllib.requestimport urllib.errorurl="https://www.xicidaili.com/wt"header="Mozilla/5.0 (Wi...原创 2019-02-16 06:48:51 · 894 阅读 · 0 评论 -
python爬虫之修改报头,模拟浏览器(build.opener()、add_header())
获取User-Agent:用浏览器打开任意页面,按一下F12,点击Network即可找到User-Agent对应信息1、使用build.opener()修改报头headers=("User-Agent",“Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239....原创 2019-02-13 16:35:53 · 4885 阅读 · 0 评论 -
URLError和HTTPError的整合使用
HTTPError是URLError的有一个子类,而URLErro在python3.3后改为OSError的子类。官方文档提供了两种使用方法(推荐使用第二种):自己写的测试代码如下:import urllib.errorimport urllib.requestdef except_error_1(): try: urllib.request.urlopen(...原创 2019-02-14 15:04:19 · 387 阅读 · 0 评论