![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Nicht_Sehen
这个作者很懒,什么都没留下…
展开
-
爬虫--代理池(requests 人人网实战)
IP代理:原因让服务器认为不是同一个客户端的请求不易追踪自己的ip检查可用性使用requests加超时参数,判断ip质量在线代理ip质量检测网站代理池字典形式,一堆ip,随机使用用户代理:代理池使用一堆带有cookie的请求组成用户代理池使用思路实例化session使用session发送请求,登陆网站,将cookie保存在session中再使用session...原创 2019-10-29 21:25:07 · 253 阅读 · 0 评论 -
简单爬虫--爬取豆瓣阅读出版社信息并保存
先看看要爬取页面出版社信息格式:import urllib.requestimport redata = urllib.request.urlopen("https://read.douban.com/provider/all").read().decode("UTF-8")# print(len(data))pat = '<div class="name">(.*?)&...原创 2019-10-03 21:12:49 · 317 阅读 · 0 评论 -
爬虫--urllib基础
import urllib.request# urlretrieve(网址,本地文件存储地址) 直接下载网页到本地urllib.request.urlretrieve('https://baidu.com','C:/Users/Nicht_sehen/Desktop/1.html')# urlcleanup() 清除缓存urllib.request.urlcleanup()# ...原创 2019-10-03 21:39:22 · 192 阅读 · 0 评论 -
简单爬虫--自动http请求(GET/POST )
get请求百度搜索界面爬取示例:先查看网址规律,一个是搜索关键词,一个是页面:再查看要爬取的内容,有两种形式::import urllib.requestimport rekeyword = "python"keyword = urllib.request.quote(keyword)for i in range(1,10): url = "http://www.ba...原创 2019-10-05 14:26:41 · 564 阅读 · 0 评论 -
爬虫--浏览器伪装技术(urllib)
先找到一个任意网站,点F12->network->all点击任意一个name下的文件,找到Headers栏下request headers,复制User-Agent内容import urllib.requesturl = "http://blog.csdn.net"headers = ("User-Agent", "Mozilla/5.0 (Wind...原创 2019-10-05 15:14:48 · 234 阅读 · 0 评论 -
爬虫实战--爬取百度贴吧
一样先看网址:根据规律来写代码import requestskw = "python"url_sample = "http://tieba.baidu.com/f?kw="+kw+"&ie=utf-8&pn={}"headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/5...原创 2019-10-05 22:25:42 · 204 阅读 · 0 评论