![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据爬虫
文章平均质量分 60
文明爬虫,人人有责。
潘森迷
it爱好者,和大家共进步!
展开
-
一晚上做了一个xpath终结者:xpath-helper-plus
作为一个资深『xpath』提取工程师,想要快速从页面中拿到数据,肯定需要借助一些工具,而最初接触的就是这块浏览器插件。使用一段时间后,发现笔者有一些特别的需求,想在此基础上扩展一下。于是乎就学习了如何开发chrome插件?如何使用自己属性的vue来开发?经过双休一顿文档、gayhub了解之后,有了这样一款工具。xpath-helper2.0.2原生是支持按住shift后通过鼠标来定位选择元素,并输出xpath语法,但是这种方式出来的xptah语法并不友好。比如说我想拾取掘金的某个文章标题:它出来了一个原创 2022-06-24 14:45:48 · 1144 阅读 · 1 评论 -
[代码领悟]一日一爬:薄荷健康食物热量
文章来源:一日一爬:薄荷健康食物热量 - 爬虫教程 - 代码领悟code05.com本文仅供学习参考。 薄荷健康秉承“为年轻家庭提供更健康、更美味的食品和饮料”的公司使命,为8000万用户提供个性化智能营养处方与一站式健康解决方案,致力于成为年轻家庭首选的健康生活方式品牌。左侧是食物的大类,右侧是具体的食物。程序要做的事情,就是进入每个食物大类,然后爬取右侧各类食物,进行翻页爬取。前端页面最大展示100条记录,所以程序也就爬取100条(10页)逻辑:进入第一个大类->查询第一页->查询第二转载 2022-03-21 17:15:26 · 816 阅读 · 0 评论 -
Scrapy通过扩展启用爬虫完成后消息通知,支持钉钉/微信/飞书等
背景使用过scrapy的开发者都知道,scrapy在爬取结束后是允许发送邮件通知的它内部是通过外部扩展extension的方式集成于scrapy的。邮件实现功能类https://docs.scrapy.org/en/latest/topics/email.html邮件异步通知扩展类https://docs.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.statsmailer在使用过程中需要配置邮箱的信息原创 2021-03-29 17:21:06 · 679 阅读 · 0 评论 -
最近部署和管理scrapy爬虫的一些事
近期开发了几个辅助工具,主要是可视化管理爬虫和任务的调度。因为太过定制化,所以市面上的现成管理工具用起来并不适合。scrapyd-admin 主要是基于scrapyd提供的API做的可视化UI操作,其功能相对简单,上传egg格式的爬虫打包文件,然后选择爬虫文件(spiders目录下)进行调度。也可对爬虫进行自定义传参,当然前提是开发爬虫的时候有接收参数。有了这个可视化管理还不够,如何对全国N个城市进行任务分发,数据清洗和入库呢?随后又做了一个地方站点任务调度。进行指定站点的任务派发和监控原创 2021-03-25 15:37:44 · 123 阅读 · 0 评论 -
scrapy可视化部署分布式爬虫
必要条件scrapy基于此框架开发爬虫脚本scrapyd基于此库远程调度scrapy项目,对外提供api接口redis利用redis-set不可重复特性,写入url-hash自动检测/入库mongodb结果数据写入MongoDB,可更换mysql或其他u like可视化管理在开发这个scrapy可视化部署管理软件之前,我也大量使用了前辈大佬们开发的跨平台或基于GO,或基于Django等开发的web版部署,学习了大佬的流程及经验做了总结。emmm…大概就长这个亚子。未完待续……原创 2021-03-25 15:18:26 · 248 阅读 · 0 评论 -
一日一技:爬取薄荷网食物热量
在线接单:网页、小程序、app爬虫、数据挖掘、API接口定制、Django网站开发本文仅供学习参考。薄荷健康秉承“为年轻家庭提供更健康、更美味的食品和饮料”的公司使命,为8000万用户提供个性化智能营养处方与一站式健康解决方案,致力于成为年轻家庭首选的健康生活方式品牌。左侧是食物的大类,右侧是具体的食物。程序要做的事情,就是进入每个食物大类,然后爬取右侧各类食物,进行翻页爬取。前端页面最大展示100条记录,所以程序也就爬取100条(10页)逻辑:进入第一个大类-...原创 2020-10-24 17:01:48 · 2497 阅读 · 2 评论 -
一日一技:使用python如何爬取前程无忧招聘岗位
在线接单:网页、小程序、app爬虫、数据挖掘、API接口定制、Django网站开发本文仅供学习参考。分析观察:通过网站顶部导航,选择职位搜索:如下图会展示职业的筛选,我们全部保持默认所有。而下方列表,会呈现出所有筛选结果:同时,我们观察到,共有2000页的招聘岗位(实际远不止,网站最大页数2000)而我们要做的,就是逐一翻页,保存列表的结果。得到列表结果:开启抓包后,通过翻页,可以发现网站发起了AJAX异步请求。而这个请求的返回结果,就有我们需要的数据。.原创 2020-10-09 13:58:26 · 620 阅读 · 0 评论 -
一日一技:我是如何爬取百万影视资源的
在线接单:网页、小程序、app爬虫、数据挖掘、API接口定制、Django网站开发以下内容仅供学习,爬取过程中请适当放慢速度,防止给网站造成不必要的流量攻击。先看下成果:包含的字段有:标题、网址、影视信息(导演/演员/时长……)、m3u8下载地址、在线播放地址所用到的模块:httpx:网络请求访问lxml:网页解析模块logging:日志模块完整代码:import httpxfrom lxml import etreeimport log...原创 2020-10-09 11:42:28 · 1613 阅读 · 0 评论