Node.js网站爬虫（一）项目简介与完成情况

Lilriver

于 2021-04-30 01:30:50 发布

阅读量229

点赞数 1

分类专栏： web编程项目文章标签： node.js

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42453922/article/details/116281175

版权

web编程项目专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

1 项目要求
2 完成情况
- 2.1 实现功能
- 2.2 实现流程

相关链接汇总：
Node.js网站爬虫（一）项目简介与完成情况
Node.js网站爬虫（二）mysql配置与数据库设计
Node.js网站爬虫（三）网络爬虫
Node.js网站爬虫（四）Express框架构建网站执行搜索功能
Node.js网站爬虫（五）扩展：热点词时间热度动态可视化展示
Node.js网站爬虫（六）易错点合集和感想

1 项目要求

•新闻爬虫及爬取结果的查询网站

•核心需求：

•1、选取3-5个代表性的新闻网站（比如新浪新闻、网易新闻等，或者某个垂直领域权威性的网站比如经济领域的雪球财经、东方财富等，或者体育领域的腾讯体育、虎扑体育等等）建立爬虫，针对不同网站的新闻页面进行分析，爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息，存储在数据库中。

•2、建立网站提供对爬取内容的分项全文搜索，给出所查关键词的时间热度分析。

•技术要求：

•1、必须采用Node.JS实现网络爬虫

•2、必须采用Node.JS实现查询网站后端，HTML+JS实现前端（尽量不要使用任何前后端框架）

2 完成情况

2.1 实现功能

构建网站使用架构：Express

（1）✅三个网站的网络爬虫（可定时执行）：环球新闻网、澎湃新闻网、东方财富网。

（2）✅网站搜索功能：根据标题（Title)或内容（Content)进行搜索，并通过表格展示结果。

（3）✅时间热度分析：统计出所查关键词不同日期出现在标题（Title)或内容（Content)的次数，并通过表格展示结果。

（4）✅数据分析：动态可视化展示：根据最近热点新闻，动态显示“五一”，“出行”，“数字货币”三个关键词热度的变化情况。

动图演示:

（1）🐛爬虫：
在这里插入图片描述

（2）🔍搜索（以Title为例）：

动态demo:
在这里插入图片描述

静态图：
在这里插入图片描述

（3）⏳时间热度统计（以Title为例）

动态demo:
在这里插入图片描述

静态图：
在这里插入图片描述

（4）📊时间热度分析：

动态demo:

在这里插入图片描述

静态图：

在这里插入图片描述

2.2 实现流程

（1）将老师给的示例代码和中国新闻网结合分析，理解每部分代码的功能。

（2）分析目标网站，修改爬虫代码，实现网络爬虫并得到数据。

（3）将数据存储在mysql中。

（4）Express架构构建网站实现搜索功能，以表格形式返回。

（5）实现时间热度分析功能，以表格形式返回。

（6）完成时间热度分析的扩展功能：对新闻热点词进行动态可视化展示。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Node.js网站爬虫（一）项目简介与完成情况

文章目录1 项目要求2 完成情况2.1 实现功能2.2 实现流程1 项目要求•新闻爬虫及爬取结果的查询网站•核心需求：•1、选取3-5个代表性的新闻网站（比如新浪新闻、网易新闻等，或者某个垂直领域权威性的网站比如经济领域的雪球财经、东方财富等，或者体育领域的腾讯体育、虎扑体育等等）建立爬虫，针对不同网站的新闻页面进行分析，爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息，存储在数据库中。•2、建立网站提供对爬取内容的分项全文搜索，给出所查关键词的时间热度分析。•技术要求：•1
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。