python scrapy多进程新闻爬虫

最新推荐文章于 2024-01-17 14:06:10 发布

FishBear_move_on

最新推荐文章于 2024-01-17 14:06:10 发布

阅读量1.1w

点赞数 3

分类专栏： Python python_in_practice python爬虫实例文章标签：舆情新闻爬虫 python-scrapy 多进程爬虫

本文链接：https://blog.csdn.net/haluoluo211/article/details/77657723

版权

111 篇文章 0 订阅

订阅专栏

11 篇文章 4 订阅

订阅专栏

1 篇文章 3 订阅

订阅专栏

3月份的时候，由于工作需要使用python+scrapy框架做了一个新闻舆情的爬虫系统，当时任务比较紧自己也没有搞过爬虫，但最终还是较好的完成了任务，现在把做的大致思路记录分享一下。

首先，展示一下部分截图吧：
pycharm单个爬虫调试
数据库的存储
根据关键词舆情部分
部分web展示

这里写图片描述
本文主要内容如下：

近两年国家对网络的内容监管十分的严格，前一两年被称为“网络直播年”因此出现了有很多直播公司。我们需要第一时间知道有关直播的新闻（直播新闻的特点是新闻会根据标题（包含“直播”，“女直播”）吸引网络用户阅读）。因此我的大致思路是获取各大新闻网站所有的含有相关关键词的新闻，爬取其url以及标题。

由于前面也没有做过爬虫相关的内容，于是google搜索了一下“python common scrape website framework”最终确定使用scrapy框架。

首先上个代码框架的截图吧

这里写图片描述

代码在个人github上面

注意：

代码的注释还是挺多的，相信大致看一下跑一下应该没什么问题。

关注