动态新闻标题热点分析

动态新闻标题热点分析
背景描述
基本上每天都会发生一些令社会热议的热点新闻舆情事件,我通过python针对这些热点新闻舆情事件热点词汇进行了盘点,汇总并展示热点词可视化,供各位参考。
为完成该项工作,我将应用大数据技术,以Python作为整个项目的基础开发语言,基于Python平台综合利用Requests、matplotlib、jieba、wordcloud等,对数据进行获取、处理、清洗、可视化呈现.
一:数据采集
使用工具
PyCharm 2020.3.3 x64
Google Chrome
Python3.6

采集规划
数据目标来源网易新闻:“https://news.163.com”
目的是抓取网易新闻近70条要闻标题,抓取目标如下
在这里插入图片描述
通过了F12开发者模式发现数据都来源于该js路径
https://temp.163.com/special/00804KVA/cm_yaowen20200213.js?callback=data_callback&date=20200115
后经过测试发现callback=data_callback&date=20200115参数不存在并不影响结果,所以进行了删除处理
决定抓取https://temp.163.com/special/00804KVA/cm_yaowen20200213.js
在这里插入图片描述

代码展示
在这里插入图片描述

代码解释
在这里插入图片描述

指定的爬取url
在这里插入图片描述

进行浏览器伪装,针对反爬使用
在这里插入图片描述

打开subjects.txt,进行覆盖,字符编码为utf-8 设别名为f
在这里插入图片描述

获得请求头
在这里插入图片描述

获取字符串形式数据
在这里插入图片描述

通过正则表达式获取所有标题
在这里插入图片描述

通过遍历标题数据集,逐条换行写入subjects.txt
到这里会进行自动关流,整个采集到这就结束了
部分结果
在这里插入图片描述
二:数据预处理
使用工具
PyCharm 2020.3.3 x64
Python3.6
处理规划
原始文本
在这里插入图片描述

分词-并词性标注
要抓取热点词首先要将新闻标题进行分词,可利用python中著名的分词器jieba(结巴分词)
在这里插入图片描述

选择名词,删除停用词
1.对“的”和“我们”这样的停用词进行去除处理,通过停用词表对词进行过滤
2.选择名词jieba中的词性标签使用了传统方式,例如:“n”是名词,“a”是形容词等。可利用正则表达式r’n[a-z0-9{0,2}]’进行处理
在这里插入图片描述

代码展示
在这里插入图片描述

代码解释

在这里插入图片描述

打开采集结果文件,进行行行读取到一个列表当中,此列表的每一项是数据集的每一行
在这里插入图片描述

打开停用词集,对每一项进行前后空格去除处理,并将其放到去重容器Set
在这里插入图片描述

创建新的列表,遍历采集结果数据集,数据为空的数据直接跳过,如果不为空,则进行结巴分词,将分词后的文件进行拆解遍历,要求 不属于停用词数据集 且 这个词是名词 如果满足条件则存入新的列表。
部分结果
在这里插入图片描述

三:数据分析
分析规划
计算词频,手动计算以键值对形式存储
代码展示
在这里插入图片描述

四:数据可视化
使用工具
PyCharm 2020.3.3 x64
Python3.6
matplotlib
wordcloud

代码展示
在这里插入图片描述

代码解释
在这里插入图片描述

得到文件的目录,读取图像aaa.png
在这里插入图片描述

设置WordCould(
字体为simher.ttf
背景颜色为白色
遮罩图像
颜色映射橙色
最大字数为50
)
在这里插入图片描述
在这里插入图片描述

给定词频画词云图

存入本地文件名为wordcloud.jpg

展示可视化图
结果展示
在这里插入图片描述

五:感受和体会

关于学习python数据分析基本过程的心得,在数据分析这门课程当中主要学习了numpy和pandas、Matplotlib和机器学习的知识,学习过程很充实,也不是很难,遇到困难基本可以通过百度、CSDN解决。因为在学习python课程的时候,其实已经完成对于python这个算法的简单入门了,也就是说学习利用python进行数据分析的基本过程前已经算是对这门语言入门了。现在很多行业,都离不开用Excel做数据分析,但每次用Excel做数据分析时,往往会出现很多令人头疼的现象如连套错误、不可扩展、性能不好、公式复杂、版本控制等…,而python做数据分析正弥补了Excel的缺点,首先python学习简单、工作效率快、代码简洁。Python还提供很多已经预先写好的代码,你只要引用一下就可以,连代码都不用写。。近年来Python的使用者数量和重要性逐年增多,逐渐成为了世界排名第三的最受欢迎编程语言。由于Python在数据分析、机器学习、深度学习等方面,开源包的不断完善和丰富,其热度近年来是一直上升的。综上所述,使用Python进行数据分析已经是一种大趋势,学习它是非常有用的,是一个非常好的选择。但我认为我学习python的时间还是有点短,基础没有稳固,对基础的知识也没有完全牢记,python确实很神奇,语言太简洁了,很多时候让我很惊讶,对其兴趣很大,希望我可以对python掌握的更好。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值