干货:完全基于情感词典的文本情感分析

这是4个月前做的。受当时的知识水平的限制,还没有接触到机器学习和相关理论,记录一下作为以后备查。当然,如果你想看源码和资料,点击我。从结项到现在,博主一直在使用机器学习并结合相关论文进行情感极性分析(源码点我),效果远远好于本篇代码的效果。
但是,本篇的数据处理和特征选择还是很有意义的,特此记录。

摘要

        当今社会媒体的发展导致了金融舆论数据的爆炸式增长。因此,针对金融舆论数据的情感分析受到广大股民和金融公司的热切关注。目前,情感分析应用主要分为两种:基于词汇的方法和机器学习方法。当然,它们都面临着获取大量人类标记训练数据和语料的挑战。我提出一种基于词汇的针对金融数据情感分析的方法:将一篇短文本划分为不同的部分并给予不同的权重,再以词汇为基本颗粒进行分数计算;同时,在已有的权威字典的基础上,针对性的添加或修改金融方面的词汇,并且使用N-Gram方法来进行新词的挖掘,最终获得更好的性能。

1. 介绍

        近年来,随着Web的发展,金融舆论的数据呈现爆炸式的增长,如何从海量数据中发现有用的信息并且得到对应的模型成为许多公司和企业关注的焦点。

        诚然,目前没有一种模型可以含括所有的领域,也没有一种字典囊括不同领域的术语。

emotionOfWord.png

        根据需求,我们将精力放在了金融领域,并且采集了不同来源的高质量的数据集。同时,我们对一个包含大多数领域的字典进行了修改,添加和修改了金融方面的专业词汇。由于金融数据的直观性、简洁性特点,我们忽略了词汇之前的同义、反义等复杂关系,讲更多的精力投入在对于极性的确定和极性程度的判定方面。在此基础上,设计了一个实用的衡量金融文本感情的算法模型。

2. 数据准备

2.1 数据来源

        数据的获取来自不同的平台,平台主要为以下几个:

- 香港上市公司的年报和半年报
- 香港线上金融媒体的新闻报告
- 海外金融数据
- 各大金融论坛的帖子
- 社交平台的金融大V的动态

        需要声明的是,算法模型是以最具有代表性的香港线上金融媒体的新闻报告为基础进行测试和训练的,在此基础上推广到其他平台的文本。

2.2 数据清洗

        为了保留新闻媒体对于关键词的标注,在数据采集的时候保留了相应的网页标签和繁体风格。之后的检查工作中发现网页的标签的用处可以忽略不计,因此将原来的网页文本清洗成了简体无标签的文本形式。

  • 17
    点赞
  • 218
    收藏
    觉得还不错? 一键收藏
  • 12
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值