twitter-LDA研究

最新推荐文章于 2018-04-11 10:31:00 发布

weixin_33735077

最新推荐文章于 2018-04-11 10:31:00 发布

阅读量1.9k

点赞数 2

文章标签：人工智能 python 数据结构与算法

原文链接：https://segmentfault.com/a/1190000010200075

版权

开始扯淡

需要有LDA研究基础的人看

前面一部分有的是我写论文的思路，可以掠过。

第一部分。
看了几篇论文，本来想研究一下陈恩红团队所写的和深度学习模型DSSM有关的那篇论文（Reading the Videos: Temporal Labeling for Crowdsourced
Time-Sync Videos Based on Semantic Embedding），但是后来宣一鸣指出文中一个很大的漏洞，询问了作者，作者没理解我的问题，仍在讨论，暂时不再研究。（询问后已经证实想法，论文写的有问题，但是总的思路没错）

后来是明白了，T-DSSM（也就是陈恩红团队的那篇论文）的思路没有问题，而且还有点道理，下周准备实现一下。
大致的思路是通过T-DSSM将每个tweet转化成vector，然后通过DBSCAN聚类成26类（文章中做实验得出26类比i较好），然后SVM分类（总的10类）。

第二部分我先来阐述一下为什么我不去在港科大的那篇文章上修改模型，其实我仔细想想是可以改的。

首先，港科大的关键公式是根据别人的公式修改来的。
图片描述

原公式，(原来的模型叫做DMR，是Andrew McCallum发明的)

图片描述

可以发现这个公式其实和西塔矩阵是无关的，所以如果我需要加入JST的情感的l矩阵进来，最后的生成公式应该是可以修改的。只是我仍然不太清楚是不是需要这样去修改，是不是用户评论都有情感极性，以及每条评论是不是有个情感极性？反正这个问题我想先放着，我再多看看别人的论文找找思路。

我认为港科大的论文没有去考虑稀疏性的问题，很难有什么好的效果。

我根据Twitter-LDA出发，找了好几篇论文来拓展思路。其实Twitter和我们的弹幕还不一样，虽然都是短文本，但是他们更长而且在同一个时间段里他们可以是很多很多话题，因为量很大。

一开始直接找到了 Twitter-LDA在github上的项目：

项目中推荐了T-LDA的原创文章和使用其模型的几篇文章：

[1] Aspect-Based Helpfulness Prediction for Online Pro

最低0.47元/天解锁文章

weixin_33735077

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
twitter-LDA研究

开始扯淡需要有LDA研究基础的人看前面一部分有的是我写论文的思路，可以掠过。第一部分。看了几篇论文，本来想研究一下陈恩红团队所写的和深度学习模型DSSM有关的那篇论文（Reading the Videos: Temporal Labeling for CrowdsourcedTime-Sync Videos Based on Sem...
复制链接

扫一扫

twitter-LDA研究

开始扯淡

“相关推荐”对你有帮助么？