爬虫
又菜又爱玩呜呜呜~
成为一名优秀的架构师
展开
-
scrapy框架爬取腾讯招聘
1.对腾讯直聘的页面进行分析最后发现首页面是AJAx请求,所以我们返回应该是一个JSON包的形式2.重写爬虫start_request方法3.接受JSON包并设定字典储存数据4.根据POSTID,拼接详情页url, 并将详情页添加进字典1.拼接url并传递连接到详情页2.对详情页的JSON包进行解析5.在管道内进行存储, 将数据存入数据库中6.源代码1.爬虫页面源代码import scrapyimport jsonimport timeclass A51jobSpider原创 2021-08-24 20:19:01 · 217 阅读 · 0 评论 -
scrapy中parse之间传递不通
今天在写scrapy爬取网站时,列表页的url请求详情页的url,不执行也不报错,最后发现是yield scrapy.Request中少了dont_filter=true没有时有的时候dont_filter到底是什么?dont_filter,是关闭去重的,scrapy会对request的URL去重(RFPDupeFilter),加上dont_filter则告诉它这个URL不参与去重,而且不会被allowed_domains域名过滤掉...原创 2021-08-23 20:38:58 · 163 阅读 · 0 评论 -
scrapy入门基础
1.scrapy的安装pip install scrapy2.scrapy项目的创建1.首先找到要建立项目的位置在路径前面加上cmd然后回车2.输入建立scrapy项目的命令scrapy startproject + 你要起的项目名称例如:scrapy startproject study出现这个就说明创建成功了,打开pycharm就可以查看项目的结构3.建立爬虫项目1.在cmd命令中输入cd 加刚才的项目名2.输入创建爬虫文件的命令scrapy genspider 爬原创 2021-08-22 21:28:27 · 1426 阅读 · 0 评论 -
爬虫使用bs4爬取两个壁纸网站
可以更改对应得值,来爬取对应得页码以及图片个数,新手上路,如有不足欢迎指导。import requestsfrom bs4 import BeautifulSoupimport osimport timeurl = 'https://www.4kbizhi.com/index_%d.html'url1 = 'https://pic.netbian.com/index_%d.html'headers = {'User-Agent': 'Mozilla/5.0 (W原创 2021-08-10 21:11:16 · 142 阅读 · 0 评论