文本挖掘分析多元应用:新能源汽车股市、英国封锁、疫情旅游与舆情分析

本文运用文本分析技术探讨新能源汽车股市涨跌、英国封锁对零售配送产业的影响、疫情下的旅游微博数据、游客满意度及新疆棉花事件舆情,揭示社会经济现象和趋势。通过情感分析、主题建模等方法,分析股评情绪与股市、消费者评论与零售配送业的关系,以及舆情动态。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

全文链接:https://tecdat.cn/?p=35975

分析师:Yaning Wu,Zexi Jin,Chang Zhang,Wei Zuo

在当今信息爆炸的时代,文本分析作为一种重要的数据处理方法,已经广泛应用于各个领域的研究中点击文末“阅读原文”了解更多)。

相关视频

本文旨在通过运用文本分析技术,帮助客户深入探究新能源汽车股市涨跌影响、英国全国性封锁对零售配送产业的影响、疫情下的旅游微博数据、游客满意度分析以及新疆棉花事件微博评论舆情等多个议题。通过对这些议题的综合性分析,我们可以更好地理解社会经济变迁、消费者行为以及舆情动态等方面的现象和趋势。

媒体感知的新能源汽车股市涨跌影响

自股票市场诞生以来,投资者以及研究人员一直探索市场情绪和涨跌的联系,国外一些学者利用Twitter来分析股市涨跌,但是中文股评情绪分析又与英文有所不同,利用中文社区股评分析股市走向,确定新能源汽车股市涨跌与股评情绪间的关系。

解决方案

任务/目标

根据东方财富网新能源股市,利用情感词分析情感,建立情感指数指标,关联股市涨跌与中文股评情绪关系。

数据源准备

为了获得东方财富网股吧中11个相关新能源汽车股吧中评论,利用Python中beautifulsoup库解析东方财富网股吧,分析网页网址规律,翻页通过网址最后一位数改变控制,得知相关评论以及时间存储在某个class当中,利用findall函数爬取所有结果

此外利用网上获取的BosonNLP关于标注了积极情感词以及消极情感词的数据,各4607行。

数据处理

把不能处理的数据做一些处理,处理成我们所需要的中文词汇,举例如下:

在excel将空的集合进行删除,之后利用结巴分词,去除英文以及数字,按照空格进行分词。

以上例举的只是部分。

构造

以上说明了如何处理数据,我们需要进一步获取情感极性,利用Python函数库TfidfVectorizer将文本TF-IDF进行向量特征表示,之后建构不同的分类器进行训练,最终比较模型。输入标注好积极以及消极文本,随机划分为训练集以及测试集,利用相应模型进行训练,将股评向量化表示,带入模型,结合标注好的情感,输出情感分类。之后利用同一天内积极和消极词个数,以天为单位,建立看涨指数:

377a258d6bc6195c61e0b9da24250dd2.png

de41f603c32a4cb1db5056eb04c8f006.png


点击标题查阅往期内容

f4e06728425e41aafe946abfada7b7b9.jpeg

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据

outside_default.png

左右滑动查看更多

outside_default.png

01

ed4abef1c9d7928b887b178f9cd01b1f.png

02

b13ba7642f70e40a87eb427a5871f763.png

03

58e1fdcf829c7781a30ffa61b21b5a12.png

04

84b507c0c5144edd31853c014357e696.png

建模

支持向量机

支持向量机是主要基于一个在空间中存在可以划分的平面从而求出最优平面的算法,将所有特征分为两类。当文本表示在特征空间中,通过计算不同类别的距离最大的间隔,则位于中线的就是所求的超平面,超平面距离最近的点即为距离。任意点到超平面距离可以写为如下:

2894ae3b8d264cfe8bf0299b72f40d3c.png

其中w为超平面法向量ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值