![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
mr.ocean
持以进步,恒以为功
展开
-
Scrapy分布式原理
scrapy架构首先我们先看一下Scrapy的单机架构也就是说scrapy的单机架构实际上实在本机维护一个爬取队列,用Scheduler进行调度,如果我们要实现scarpy的分布式,就需要多台主机协同操作,那么问题来了多台主机协作的关键是什么?实际上就是共享爬取队列:核心就是将这个队列进行共享,让多台主机都能访问,然后让各个主机的Scheduler进行调度,这样就可以共享requests...原创 2020-03-03 18:01:30 · 336 阅读 · 0 评论 -
实现python爬虫的套路
实现python爬虫的套路准备url开始请求url地址的设定技巧准备start_urlurl地址规律不明显,总数不确定xpath语法获取下一页的url地址寻找url地址,部分参数再当前的相应中(比如,当前页码数和总的页码数再当前的响应中)准备url_list页码总数比较明显url地址规律明显准备url_list页码总数明确url地址规律明显...原创 2019-12-12 21:12:56 · 129 阅读 · 0 评论 -
Linux中定时爬虫的实现
这里我使用的linux操作系统是ubuntu,所以首先在ubuntu中安装crontab1.再Ubuntu中安装crontab(1)sudo apt-get cron(服务器环境下默认安装的有)(2)使用crontab -e进入编辑页面(第一次会让你选择编辑器)①crontab -l 查看当时的定时任务2.编辑时间 分 小时 日 月 星期 命令范围 0-59 ...原创 2019-12-06 12:25:10 · 476 阅读 · 0 评论 -
jd图书商城爬取
目标:抓取京东图书包含图书的名字、封面图片、图书url地址、出版社、出版时间、价格、图书所属大分类、图书所属的小分类,分类的url地址,数据保存在本地思路由于爬取的数量较多,所以这里使用scrapy框架对数据进行抓取找到start_url,链接为:https://book.jd.com/booksort.html将数据抓取完毕之后保存在本地,写好item_pepiline代码# ...原创 2019-12-04 15:45:37 · 762 阅读 · 0 评论 -
分布式爬虫的房天下实战(终章)
这里我用自己的虚拟机配合这自己的windows进行分布式爬虫,先开启redis服务器,进入安装redis的环境目录,输入redis-server.exe redis.windows.conf即可开启。2.利用xshell链接到虚拟机,接下来就是步骤。编写一个scrapy_redis分布式爬虫:要将一个scrapy项目编程一个scrapy_redis项目只需要修改以下三点就可以了:1. ...原创 2019-12-03 14:05:29 · 334 阅读 · 7 评论 -
分布式爬虫的房天下实战(四)
上一节我们相当于写完了一个单机爬虫,下面将各板块的完整代码给出:ftx.py# -*- coding: utf-8 -*-import scrapyimport refrom fang.items import NewHouseItemfrom fang.items import EsfItemclass FtxSpider(scrapy.Spider): name = ...原创 2019-12-03 13:55:13 · 329 阅读 · 0 评论 -
分布式爬虫之房天下实战(三)
上一小节我们已经获取到了对所有城市的新房和二手房的链接,并交给他们所对应的函数,这一小节我们将对新房和二手房的内容进行解析首先进入新房链接页面在items.py中定义我们所需爬取的内容名称然后再进入新房页面,按下f12,查看网页结构,利用xpath语法,获取所需要的内容信息,这里先把代码附上:def parse_newhouse(self, response):province, c...原创 2019-12-03 13:49:07 · 309 阅读 · 0 评论 -
分布式爬虫之房天下实战(二)
上一篇我们已经完成了一个初始的scrapy爬虫模板,接下来开始分析我们要爬取的网页结构。首先按下F12,观察网页结构,发现每个tr标签都在这个table标签下在这个网页中,我们要获取每个城市的省份或直辖市,还有城市的名称,还有城市所对应的初始链接。第一获取直辖市/省份这里先给出代码: def parse(self, response): # 获取所有的tr标签 ...原创 2019-12-03 13:25:05 · 314 阅读 · 0 评论 -
分布式爬虫之房天下实战(一)
这里我们的目标是爬取全国所有城市的新房和二手房的信息,所以这里我们的目标网站就选用了房天下网站,域名:https://www1.fang.com/首先先分析网页,观察新房和旧房之间的url地址规律发现规律如下:这里以城市安庆为例:安庆的url地址: https://anqing.fang.com/新房url地址: https://anqing.newhouse.fang.com/hou...原创 2019-12-03 12:53:48 · 419 阅读 · 0 评论 -
【反爬虫】Scrapy设置随机请求头
随机User-Agent的构建在这里给大家推荐一个包含全球所有的user-agent的网站:网站地址效果图如下:这里我随机选了几个关于谷歌和火狐浏览器中的UA,然后再scrapy框架中的middlewares.py中新增加一个类,在里面构建了一个user-agent的列表,效果如下:```pythonclass UserAgentDownloadMiddleware(object...原创 2019-11-27 11:52:55 · 492 阅读 · 0 评论 -
抓取拉勾网中的数据
利用selenium和chromdriver进行数据抓取再使用selenium之前,我尝试过使用requests库对数据进行抓取,虽然代码也可以运行,但是比较麻烦,而且其中的cookies信息坚持不了多久,所以不能够完整的将数据给爬取下来,如下图:在这里顺便把代码也一下复制过来把,希望大家可以一起交流讨论import requestsimport timeimport jsonfro...原创 2019-11-23 17:37:26 · 292 阅读 · 0 评论