爬虫
CarisePem
这个作者很懒,什么都没留下…
展开
-
豆瓣带cookies爬取hearders注意事项
Referer 'Referer': 'https://www.douban.com',可以请求成功! 'Referer': 'https://www.baidu.com',请求失败 'Referer': 'www.baidu.com',请求失败原创 2019-10-15 19:39:44 · 535 阅读 · 0 评论 -
爬虫CSS选择器
如何使用CSS选择器: from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') soup.select() BeautifulSoup对象的.select()方法中传入字符串参数,选择的结果以列表形式返回. css基本语法 元素选择器: 直接选择文档元素 比如head,p 类选择...转载 2019-10-15 19:41:42 · 2476 阅读 · 0 评论 -
用Scrapy编写爬虫步骤整理
关于settings.py文件一开始的处理 关于是否遵守robots.txt协议 代码: # Obey robots.txt rules ROBOTSTXT_OBEY = True//遵守 # Obey robots.txt rules ROBOTSTXT_OBEY = True//不遵守 ...原创 2019-09-17 18:46:45 · 218 阅读 · 0 评论 -
用Scrapy编写爬虫——setting.py
关于settings.py文件一开始的处理 关于是否遵守robots.txt协议 代码: # Obey robots.txt rules ROBOTSTXT_OBEY = True//遵守 # Obey robots.txt rules ROBOTSTXT_OBEY = True//不遵守 ...原创 2019-09-17 18:48:19 · 167 阅读 · 0 评论 -
用scrapy编写爬虫——downmiddlewares
useragent 用户代理池 方法一: (1)在settings中设置用户代理池 用户代理(User-Agent)池设置 UAPOOL = [ "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"...原创 2019-09-21 19:25:51 · 193 阅读 · 0 评论