数据可视化分析之新闻数据分析

背景介绍

本文对多个平台的多个类型的新闻数据信息进行爬虫,并且进行数据分析提取出相关主题新闻的关键词,并进行可视化分析和机器学习,对新的新闻主题进行判定。

1、新闻爬虫

本文爬取了新浪新闻、微博、人民日报等多个平台的新闻数据,以新浪为例进行数据爬虫介绍:
爬虫主要是通过找到新闻控制的超链接,如:f'http://mil.news.sina.com.cn/roll/index.d.html?cid=57918&page={j}'该链接为新浪的军情新闻数据的链接,通过解析该链接的数据信息可以获得具体的新闻内容,最后,将爬取的数据保存到txt中,代码如下:
在这里插入图片描述
这样就可以批量获取多个平台的新闻数据,为之后的数据分析和机器学习提供数据基础。

2、机器学习建模分析

在对新闻文本进行机器学习建模分析的时候,最主要的是对中文进行词向量化处理,其中,关键为对中文进行中文分词。其中,中文分词如下:
在这里插入图片描述
中文分词后,使用tf-idf对中文分词结果进行词向量化处理,结果如下:
在这里插入图片描述
最后,使用处理完毕的向量矩阵进行机器学习建模分析:
在这里插入图片描述

3、数据可视化分析

这里进行的数据可视化分析主要就是词云图分析,具体就是对所有的新闻进行中文分词,分词完毕后统计各个词语出现的频率,最后,使用pyecharts进行词云图绘制。
在这里插入图片描述
上图为分析结果。

源码 定制数据分析v:km_0224

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值