Node.js网站爬虫(一)项目简介与完成情况


相关链接汇总:
Node.js网站爬虫(一)项目简介与完成情况
Node.js网站爬虫(二)mysql配置与数据库设计
Node.js网站爬虫(三)网络爬虫
Node.js网站爬虫(四)Express框架构建网站执行搜索功能
Node.js网站爬虫(五)扩展:热点词时间热度动态可视化展示
Node.js网站爬虫(六)易错点合集和感想

1 项目要求

•新闻爬虫及爬取结果的查询网站

•核心需求:

•1、选取3-5个代表性的新闻网站(比如新浪新闻、网易新闻等,或者某个垂直领域权威性的网站比如经济领域的雪球财经、东方财富等,或者体育领域的腾讯体育、虎扑体育等等)建立爬虫,针对不同网站的新闻页面进行分析,爬取出编码、标题、作者、时间、关键词、摘要、内容、来源等结构化信息,存储在数据库中。

•2、建立网站提供对爬取内容的分项全文搜索,给出所查关键词的时间热度分析。

•技术要求:

•1、必须采用Node.JS实现网络爬虫

•2、必须采用Node.JS实现查询网站后端,HTML+JS实现前端(尽量不要使用任何前后端框架)

2 完成情况

2.1 实现功能

构建网站使用架构:Express

(1)✅三个网站的网络爬虫(可定时执行):环球新闻网、澎湃新闻网、东方财富网。

(2)✅网站搜索功能:根据标题(Title)或内容(Content)进行搜索,并通过表格展示结果。

(3)✅时间热度分析:统计出所查关键词不同日期出现在标题(Title)或内容(Content)的次数,并通过表格展示结果。

(4)✅数据分析:动态可视化展示:根据最近热点新闻,动态显示“五一”,“出行”,“数字货币”三个关键词热度的变化情况。

动图演示:

(1)🐛爬虫:
在这里插入图片描述

(2)🔍搜索(以Title为例):

动态demo:
在这里插入图片描述

静态图:
在这里插入图片描述

(3)⏳时间热度统计(以Title为例)

动态demo:
在这里插入图片描述

静态图:
在这里插入图片描述

(4)📊时间热度分析:

动态demo:

在这里插入图片描述

静态图:

在这里插入图片描述

2.2 实现流程

(1)将老师给的示例代码和中国新闻网结合分析,理解每部分代码的功能。

(2)分析目标网站,修改爬虫代码,实现网络爬虫并得到数据。

(3)将数据存储在mysql中。

(4)Express架构构建网站实现搜索功能,以表格形式返回。

(5)实现时间热度分析功能,以表格形式返回。

(6)完成时间热度分析的扩展功能:对新闻热点词进行动态可视化展示。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值