Exploiting Topic based Twitter Sentiment for Stock Prediction论文总结

Exploiting Topic based Twitter Sentiment for Stock Prediction

基于主题模型的情感分析 用于股票预测

Twitter, Facebook等社交网站每天产生大量含有公众意见的推文。

人们的情绪包含在这些信息中,研究表明情绪会影响个体的行为和决策。

人们对不同主题的情绪不同,这对于股票的预测是一个有用的信息。

本文提出了一个非参数化的基于主题的情感时间序列方法来分析Twitter数据。这里的关键动机是Twitter的流媒体消息反映了在短时间内可能与股票相关的人们的情绪。

模型
LDA(Latent Dirichlet Allocation)

按照wiki上的介绍,LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,是一种主题模型,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。

人类是怎么生成文档的呢?比如假设事先给定了这几个主题:Arts、Budgets、Children、Education,然后通过学习训练,获取每个主题Topic对应的词语。如下图所示:
在这里插入图片描述
然后以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断的重复这两步,最终生成如下图所示的一篇文章(其中不同颜色的词语分别对应上图中不同主题下的词):
在这里插入图片描述
LDA要做的就是:根据给定的一篇文档,推测其主题分布。

一、Continuous DPM(Dirichlet Processes Mixture) Model

Dirichlet Process (DP)被称为分布的分布。从DP抽取出的每个样本(一个函数)都可以被认为是一个离散随机变量的分布函数,这个随机变量以非零概率值在可数无穷个离散点上取值。

Dirichlet Process Mixture (DPM)是这种非参数贝叶斯聚类模型中的一个典型代表。DPM可以认为是有限混合(Finite Mixture,FM)模型的一个推广,FM(如Gaussian Mixture模型)必须首先给定类数,而DPM则不需要,它可以依据数据自行判断类数。理论上来说,DPM的类数随着log(样本点数量)的增长速度增长。目前研究者已经提出了很多训练DPM的算法,从Gibbs Sampling,到Collapsed Gibbs Sampling,到Variational方法。

在一定时间内,主题是动态变化的,我们使用cDPM模型来估计数据中的主题的数量。
在这里插入图片描述

为了提高效率,我们只考虑前一天的主题作为之前的主题(priors)。

二、基于主题的情感时间序列

opinion lexicon O(a list of positive and negative opinion words, e.g., good and bad) and label (o)(o∈O) as “+1” if it is positive and “-1” if negative.
在这里插入图片描述
在这里插入图片描述

三、使用VAR(vector autoregression)分析时间序列

在这里插入图片描述在这里插入图片描述

  • window size 使用的推文的天数
  • accuracy 预测股票指数up和down的正确率
  • [t , t+w]来预测t+w+1的指数
实验

数据集:使用Twitter’s REST API收集了2012.11.2到2013.2.7的624782推文

关键词为Stand-ard & Poor’s 100 stocks (S&P100)

从雅虎金融获得S&P100指数的每日收盘价

比较对象:2个基准

  • Index: 仅用index time series的AR模型
  • Raw: index and opinion lexicon time series(Bollen et al., 2011, Ruiz et al., 2012)
  • cDPM: index and topic based sentiment time series
实验结果

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Bert是一种在自然语言处理中被广泛使用的模型,其在各种任务中表现出了出色的性能。然而,对于方面级情感分析,Bert并不直接适用。因此,需要对Bert进行利用,并通过修改和扩展来适应这一任务。 端到端(end-to-end)的方面级情感分析是指通过一个模型直接从文本中提取方面和情感信息。为了利用Bert进行端到端的方面级情感分析,首先需要对数据进行预处理,并将其转换成Bert模型所接受的输入格式。这包括将文本分段、添加特殊标记以及填充序列等操作。 在Bert模型的基础上,需要添加相关的层来实现方面级情感分析。一种常见的方法是利用注意力机制来捕获方面词与其他词之间的关系。通过计算不同词之间的注意力权重,可以将方面词的相关信息传递给其他词,从而更好地理解整个文本。另外,也可以添加一些分类层来预测每个方面的情感。 为了更好地利用Bert,还可以使用领域特定的语料库来进行预训练。通过在大规模的语料库上进行预训练,模型可以更好地理解特定领域的文本,并提升方面级情感分析的性能。 此外,还可以通过调整Bert模型的超参数来进一步改善性能。例如,可以调整学习率、批大小和训练周期等超参数,以获得更好的结果。 总之,“exploiting bert for end-to-end aspect-based sentiment analysis”意味着通过对Bert进行修改和扩展,将其应用于端到端的方面级情感分析任务中,以提升模型的性能和效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值