爬虫监控1000家企业新闻动态

开源一个项目 Github地址

简介: 此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在 5 分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。

原理: 采用 celery 任务队列,定期抓取网站 html, 使用 difflib 比对新旧页面源码,发现增加的部分,提取 url 和 text,过滤筛选,保存 MySQL 数据库。 定期把更新的 url 和 text,通过邮件发送给订阅者。

news feed

转载于:https://juejin.im/post/59ddc13d6fb9a0452b48352f

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值