twitter-LDA研究

开始扯淡

需要有LDA研究基础的人看

前面一部分有的是我写论文的思路,可以掠过。

第一部分。
看了几篇论文,本来想研究一下陈恩红团队所写的和深度学习模型DSSM有关的那篇论文(Reading the Videos: Temporal Labeling for Crowdsourced
Time-Sync Videos Based on Semantic Embedding),但是后来宣一鸣指出文中一个很大的漏洞,询问了作者,作者没理解我的问题,仍在讨论,暂时不再研究。(询问后已经证实想法,论文写的有问题,但是总的思路没错)

后来是明白了,T-DSSM(也就是陈恩红团队的那篇论文)的思路没有问题,而且还有点道理,下周准备实现一下。
大致的思路是通过T-DSSM将每个tweet转化成vector,然后通过DBSCAN聚类成26类(文章中做实验得出26类比i较好),然后SVM分类(总的10类)。

第二部分我先来阐述一下为什么我不去在港科大的那篇文章上修改模型,其实我仔细想想是可以改的。

首先,港科大的关键公式是根据别人的公式修改来的。
图片描述

原公式,(原来的模型叫做DMR,是Andrew McCallum发明的)

图片描述

可以发现这个公式其实和西塔矩阵是无关的,所以如果我需要加入JST的情感的l矩阵进来,最后的生成公式应该是可以修改的。只是我仍然不太清楚是不是需要这样去修改,是不是用户评论都有情感极性,以及每条评论是不是有个情感极性?反正这个问题我想先放着,我再多看看别人的论文找找思路。

我认为港科大的论文没有去考虑稀疏性的问题,很难有什么好的效果。

我根据Twitter-LDA出发,找了好几篇论文来拓展思路。其实Twitter和我们的弹幕还不一样,虽然都是短文本,但是他们更长而且在同一个时间段里他们可以是很多很多话题,因为量很大。

一开始直接找到了 Twitter-LDA在github上的项目:

项目中推荐了T-LDA的原创文章和使用其模型的几篇文章:

[1] Aspect-Based Helpfulness Prediction for Online Pro
  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值