全文链接:https://tecdat.cn/?p=35975
分析师:Yaning Wu,Zexi Jin,Chang Zhang,Wei Zuo
在当今信息爆炸的时代,文本分析作为一种重要的数据处理方法,已经广泛应用于各个领域的研究中(点击文末“阅读原文”了解更多)。
相关视频
本文旨在通过运用文本分析技术,帮助客户深入探究新能源汽车股市涨跌影响、英国全国性封锁对零售配送产业的影响、疫情下的旅游微博数据、游客满意度分析以及新疆棉花事件微博评论舆情等多个议题。通过对这些议题的综合性分析,我们可以更好地理解社会经济变迁、消费者行为以及舆情动态等方面的现象和趋势。
媒体感知的新能源汽车股市涨跌影响
自股票市场诞生以来,投资者以及研究人员一直探索市场情绪和涨跌的联系,国外一些学者利用Twitter来分析股市涨跌,但是中文股评情绪分析又与英文有所不同,利用中文社区股评分析股市走向,确定新能源汽车股市涨跌与股评情绪间的关系。
解决方案
任务/目标
根据东方财富网新能源股市,利用情感词分析情感,建立情感指数指标,关联股市涨跌与中文股评情绪关系。
数据源准备
为了获得东方财富网股吧中11个相关新能源汽车股吧中评论,利用Python中beautifulsoup库解析东方财富网股吧,分析网页网址规律,翻页通过网址最后一位数改变控制,得知相关评论以及时间存储在某个class当中,利用findall函数爬取所有结果
此外利用网上获取的BosonNLP关于标注了积极情感词以及消极情感词的数据,各4607行。
数据处理
把不能处理的数据做一些处理,处理成我们所需要的中文词汇,举例如下:
在excel将空的集合进行删除,之后利用结巴分词,去除英文以及数字,按照空格进行分词。
以上例举的只是部分。
构造
以上说明了如何处理数据,我们需要进一步获取情感极性,利用Python函数库TfidfVectorizer将文本TF-IDF进行向量特征表示,之后建构不同的分类器进行训练,最终比较模型。输入标注好积极以及消极文本,随机划分为训练集以及测试集,利用相应模型进行训练,将股评向量化表示,带入模型,结合标注好的情感,输出情感分类。之后利用同一天内积极和消极词个数,以天为单位,建立看涨指数:
点击标题查阅往期内容
NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据
左右滑动查看更多
01
02
03
04
建模
支持向量机
支持向量机是主要基于一个在空间中存在可以划分的平面从而求出最优平面的算法,将所有特征分为两类。当文本表示在特征空间中,通过计算不同类别的距离最大的间隔,则位于中线的就是所求的超平面,超平面距离最近的点即为距离。任意点到超平面距离可以写为如下:
其中w为超平面法向量ÿ