干货：完全基于情感词典的文本情感分析

最新推荐文章于 2024-04-17 11:57:45 发布

VIP文章心谭

最新推荐文章于 2024-04-17 11:57:45 发布

阅读量5.8w

点赞数 17

文章标签：机器学习 python 自然语言处理数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/asuradong/article/details/78157885

版权

这是４个月前做的。受当时的知识水平的限制，还没有接触到机器学习和相关理论，记录一下作为以后备查。当然，如果你想看源码和资料，点击我。从结项到现在，博主一直在使用机器学习并结合相关论文进行情感极性分析（源码点我），效果远远好于本篇代码的效果。
但是，本篇的数据处理和特征选择还是很有意义的，特此记录。

摘要

当今社会媒体的发展导致了金融舆论数据的爆炸式增长。因此，针对金融舆论数据的情感分析受到广大股民和金融公司的热切关注。目前，情感分析应用主要分为两种：基于词汇的方法和机器学习方法。当然，它们都面临着获取大量人类标记训练数据和语料的挑战。我提出一种基于词汇的针对金融数据情感分析的方法：将一篇短文本划分为不同的部分并给予不同的权重，再以词汇为基本颗粒进行分数计算；同时，在已有的权威字典的基础上，针对性的添加或修改金融方面的词汇，并且使用N-Gram方法来进行新词的挖掘，最终获得更好的性能。

1. 介绍

近年来，随着Web的发展，金融舆论的数据呈现爆炸式的增长，如何从海量数据中发现有用的信息并且得到对应的模型成为许多公司和企业关注的焦点。

诚然，目前没有一种模型可以含括所有的领域，也没有一种字典囊括不同领域的术语。

根据需求，我们将精力放在了金融领域，并且采集了不同来源的高质量的数据集。同时，我们对一个包含大多数领域的字典进行了修改，添加和修改了金融方面的专业词汇。由于金融数据的直观性、简洁性特点，我们忽略了词汇之前的同义、反义等复杂关系，讲更多的精力投入在对于极性的确定和极性程度的判定方面。在此基础上，设计了一个实用的衡量金融文本感情的算法模型。

2. 数据准备

2.1 数据来源

数据的获取来自不同的平台，平台主要为以下几个：

- 香港上市公司的年报和半年报
- 香港线上金融媒体的新闻报告
- 海外金融数据
- 各大金融论坛的帖子
- 社交平台的金融大V的动态

需要声明的是，算法模型是以最具有代表性的香港线上金融媒体的新闻报告为基础进行测试和训练的，在此基础上推广到其他平台的文本。

2.2 数据清洗

为了保留新闻媒体对于关键词的标注，在数据采集的时候保留了相应的网页标签和繁体风格。之后的检查工作中发现网页的标签的用处可以忽略不计，因此将原来的网页文本清洗成了简体无标签的文本形式。

最低0.47元/天解锁文章

关注

17
点赞
踩
218

收藏

觉得还不错? 一键收藏
12
评论
干货：完全基于情感词典的文本情感分析

这是４个月前做的。受当时的知识水平的限制，还没有接触到机器学习和相关理论，记录一下作为以后备查。当然，如果你想看源码和资料，点击我。从结项到现在，博主一直在使用机器学习并结合相关论文进行情感极性分析（源码点我），效果远远好于本篇代码的效果。但是，本篇的数据处理和特征选择还是很有意义的，特此记录。摘要当今社会媒体的发展导致了金融舆论数据的爆炸式增长。因此，针对金融舆论数据的情
复制链接

扫一扫

心谭 CSDN认证博客专家 CSDN认证企业博客

码龄7年

143: 原创

5万+: 周排名

113万+: 总排名

22万+: 访问

: 等级

3084: 积分

138: 粉丝

52: 获赞

39: 评论

335: 收藏

私信

关注

热门文章

分类专栏

最新评论

MathJax: 让前端支持数学公式
肖肖肖丽珠: 你好。为什么有的时候<script type="text/javascript" async src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.5/MathJax.js?config=TeX-MML-AM_CHTML"></script>加载的时候没有加载成功，有时候多刷新几次就好了呢？是这个cdn不稳定吗？
前端动画专题（三）：撩人的按钮特效
Lovely Ruby: 这个好玩啊！
循环链表和约瑟夫环
码山攀行人: 好像有问题吧，为什么要m=n%m？不会导致结果出错么？第66，67，68行temp=start，start=start-＞next,delete temp.不会导致原来的环被破坏么？还怎么循环输出？
干货：完全基于情感词典的文本情感分析
微微小宝: 请问极性反转是如何实现的
循环链表和约瑟夫环
菜鸟也想做游戏: 太棒了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。