![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
CarisePem
这个作者很懒,什么都没留下…
展开
-
豆瓣带cookies爬取hearders注意事项
Referer'Referer': 'https://www.douban.com',可以请求成功!'Referer': 'https://www.baidu.com',请求失败'Referer': 'www.baidu.com',请求失败原创 2019-10-15 19:39:44 · 515 阅读 · 0 评论 -
爬虫CSS选择器
如何使用CSS选择器:from bs4 import BeautifulSoupsoup = BeautifulSoup(html, 'html.parser')soup.select()BeautifulSoup对象的.select()方法中传入字符串参数,选择的结果以列表形式返回.css基本语法元素选择器: 直接选择文档元素 比如head,p类选择...转载 2019-10-15 19:41:42 · 2443 阅读 · 0 评论 -
用Scrapy编写爬虫步骤整理
关于settings.py文件一开始的处理关于是否遵守robots.txt协议代码:# Obey robots.txt rulesROBOTSTXT_OBEY = True//遵守# Obey robots.txt rules ROBOTSTXT_OBEY = True//不遵守...原创 2019-09-17 18:46:45 · 207 阅读 · 0 评论 -
用Scrapy编写爬虫——setting.py
关于settings.py文件一开始的处理关于是否遵守robots.txt协议代码:# Obey robots.txt rulesROBOTSTXT_OBEY = True//遵守# Obey robots.txt rules ROBOTSTXT_OBEY = True//不遵守 ...原创 2019-09-17 18:48:19 · 149 阅读 · 0 评论 -
用scrapy编写爬虫——downmiddlewares
useragent用户代理池方法一:(1)在settings中设置用户代理池用户代理(User-Agent)池设置UAPOOL = [ "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"...原创 2019-09-21 19:25:51 · 158 阅读 · 0 评论