入门级新闻爬虫

最新推荐文章于 2022-10-07 16:22:22 发布

weixin_34292959

最新推荐文章于 2022-10-07 16:22:22 发布

阅读量187

点赞数

文章标签：爬虫数据库 python

原文链接：http://www.cnblogs.com/ops-sylar/p/9496097.html

版权

区块链资讯爬虫项目

项目需求分析

项目目标网站

链得得： http://www.chaindd.com/
金色财经: https://www.jinse.com
巴比特： http://www.8btc.com/news

爬虫目标分析

1，链得得和金色财经首页结构相对简单，资讯新闻的爬取特征明显。无需太多特殊抓取方法。
2，巴比特首页广告和外链较多，经过分析直接抓取新闻页。
3，3大网站都是动态网站，资讯需要通过selenium进行动态抓取
4，对于那些时效性不强的老旧资讯，可以适当地舍弃。只抓取发布时间较新地资讯

爬虫存储结构（数据库）

_id             : 唯一标识
spider_time     : 采集时间
news_link       ：新闻原链接
news_img        ：新闻原首页图
news_title      ：新闻原标题
news_author     ：作者
news_time       ：来源发布时间（可能需要增加一个本地发布时间）
news_keyword    ：关键字
news_source     ：来源媒体
news_synopsis   ：简介
news_content    ：正文
status          ：后台使用
category_id     : 后台使用
news_md5        : 正文md5值