数据可视化分析之新闻数据分析

Ms_f

于 2022-09-03 01:55:16 发布

阅读量2.5k

点赞数 2

分类专栏：数据分析系列文章标签：数据分析 python 数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21959759/article/details/126672853

版权

数据分析系列专栏收录该内容

3 篇文章

订阅专栏

背景介绍

本文对多个平台的多个类型的新闻数据信息进行爬虫，并且进行数据分析提取出相关主题新闻的关键词，并进行可视化分析和机器学习，对新的新闻主题进行判定。

1、新闻爬虫

本文爬取了新浪新闻、微博、人民日报等多个平台的新闻数据，以新浪为例进行数据爬虫介绍：
爬虫主要是通过找到新闻控制的超链接，如：f'http://mil.news.sina.com.cn/roll/index.d.html?cid=57918&page={j}'该链接为新浪的军情新闻数据的链接，通过解析该链接的数据信息可以获得具体的新闻内容，最后，将爬取的数据保存到txt中，代码如下：
在这里插入图片描述
这样就可以批量获取多个平台的新闻数据，为之后的数据分析和机器学习提供数据基础。

2、机器学习建模分析

在对新闻文本进行机器学习建模分析的时候，最主要的是对中文进行词向量化处理，其中，关键为对中文进行中文分词。其中，中文分词如下：
在这里插入图片描述
中文分词后，使用tf-idf对中文分词结果进行词向量化处理，结果如下：

最后，使用处理完毕的向量矩阵进行机器学习建模分析：

3、数据可视化分析

这里进行的数据可视化分析主要就是词云图分析，具体就是对所有的新闻进行中文分词，分词完毕后统计各个词语出现的频率，最后，使用pyecharts进行词云图绘制。
在这里插入图片描述
上图为分析结果。

源码定制数据分析v:km_0224

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。