搭建一个新闻推荐网站（一）

最新推荐文章于 2024-04-10 23:34:57 发布

计算机动物

最新推荐文章于 2024-04-10 23:34:57 发布

阅读量3.2k

点赞数 1

分类专栏： Scrapy Python

本文链接：https://blog.csdn.net/qq_38322240/article/details/80638267

版权

起因

三点原因吧：

首先你需要有这些新闻数据，而且每天都会更新。所以需要一个可维护的可扩展的获取数据的程序

我选择了Python作为开发语言，scrapy作为数据源，web框架待定。Django就算了（Django就有点杀鸡用牛刀了，而且我不喜欢Django，封装的太过分了），flask或者web.py任选之一。

通过Scrapy抓取数据，清洗之后存放到MySQL数据库，在网站端展示出来，并且给每条新闻一个评分功能，让用户为他看到的新闻打分，通过交替最小二乘法对用户进行推荐，这里我还要使用spark进行计算，大致思路就是这样的。

Scrapy是Python里很流行的一个爬虫框架，不再说废话了，开始做了！

items文件夹里是item文件，它定义了你需要抓取得字段，每个item是一个字典类型，后续我会写到

pipelines里的文件对你获取的item数据进行操作，你可以清洗、筛选、过滤、存储它们

spiders里的文件是你的页面解析文件

settings文件显然是一个配置文件

utils_box文件夹，这里我存放一些工具，后面会涉及（你也可以不写）

begin.py文件是一个项目开始的执行文件

主要的我都介绍了，其余的涉及会谈到，scrapy的大致简化流程就是：1、在item里定义你要获取的信息 2、在spider里去解析网页获得item里的对应信息，传递给item对象并且yield抛出 3、pipeline会接到你抛出的item对象，对它进行处理

先写一个简化版的，暂时只需要这些字段信息

我们的spider（这里抓取日本共同社新闻网为例，https://china.kyodonews.net/ 这家媒体的报道具有一定的参考性，而且网站页面结构很稳定，很少改动，get请求就可以获取HTML）

关注