这学期做了一些和stance detection相关的工作,stance detection,可理解为“立场检测”,stance即为人对个体、事物、事件所表现出的看法或者态度,如“支持、反对”。stance detection虽然也属于文本分类,但和基于主题的文本分类、情感分类有些差异,stance的表达是更隐晦的,因此分类难度更大。在此列出自己阅读论文的列表,部分论文直接列出一些简单的笔记,这些论文可读性不强(方法过于简单,或者论文本身的贡献不在方法上,没有太多记录成笔记的价值…),部分论文会逐步完善,给出简单的阅读笔记。阅读价值评分纯粹是基于自己对于文章的理解,标准包括:动机、方法、数据集质量、实验安排、相关工作等,满分为5(相对评分,即分值高低仅反映论文在以下列表中的可读价值,并不一定说明这篇文章有多好)。列表如下:
名称 | 所属会议(来源) | 类型 | 时间 | 阅读价值 | 笔记 |
---|---|---|---|---|---|
Modeling Stance in Student Essays | ACL | long paper | 2016 | 1 | 自己构建的student essay数据集,包含800多篇,6分类;构建了很多特征,其中path-based features可以看看。实验效果比前人的基于feature set的模型要好一点。 |
Hawkes Processes for Continuous Time Sequence Classification: an Application to Rumour Stance Classification in Twitter | ACL | short paper | 2016 | 1 | 较早的一篇文章,稍微看看就好。里面将Twitter转化为时序,进而用统计学模型进行求解的转化思路值得借鉴。 |
A Multidimensional Lexicon for Interpersonal Stancetaking Umashanthi | ACL | long paper | 2017 | 1 | … |
Cross-Target Stance Classification with Self-Attention Networks | ACL | short paper | 2018 | 3.5 | 在具有相似预测目标的不同态度分类数据集上进行迁移学习。将模型从数据集A中学习到的关于target的知识运用到数据集B的目标预测上。划重点,迁移学习。 |
Weakly-Guided User Stance Prediction via Joint Modeling of Content and Social Interaction | CIKM | long paper | 2017 | 2.5 | 无监督的stance prediction。自己爬取的CNN news和4Forums;由于数据是跟debate forum相关的,因此每条post都有有十分丰富的上下文,并且上下文不同post之间会产生关系(支持、反驳等)。模型先根据一系列的上下文和不同post之间的关系,得出不同立场的词表,再得出用户在该topic下的stance极性打分。模型的具体方法没有细看,运用了一些启发式规则和限制条件下的最优化方法。本文的问题是围绕debate forum展开,数据集具有一定的特性,不同用户的相互支持、反驳使得能够无监督地聚类不同态度的词汇表达。这和之前接触的stance detection任务不太相同。 |
A Temporal Attentional Model for Rumor Stance Classification | CIKM | short paper | 2017 | 4 | TO BE CONTINUED |
A Joint Sentiment-Target-Stance Model for Stance Classification in Tweets | COLING | long paper | 2016 | 2.5 | SemEval 2016 task 6;前人工作在建模stance时,会将target和sentiment作为额外特征。而本文针对stance、target、sentiment联合建模。使用了概率图模型,反复看了几遍没看懂,暂时放弃。。。联合建模sentiment、target、stance,思路很好,但是方法上不太理解。或许将target、sentiment作为辅助信息加入NN,或者利用网络结构进行联合建模能更好地捕捉信息? |
UTCNN: a Deep Learning Model of Stance Classificationon on Social Media Text | COLING | long paper | 2016 | 3.5 | TO BE CONTINUED |
Stance Classification in Rumours as a Sequential Task Exploiting the Tree Structure of Social Media Conversations | COLING | long paper | 2017 | 3.5 | TO BE CONTINUED |
Scrutable Feature Sets for Stance Classificatio | COLING | wordshop | 2016 | 1 | … |
Structured Representation Learning for Online Debate Stance Prediction | COLING | long paper | 2018 | 2 | online debate stance prediction。4FORUMS,CREATEDEBATE的数据;文章将debate forum中的各类信息进行embedding,通过text embedding的相似性来找已知stance和待预测stance的embedding相似性。文中还针对一些依赖关系添加了限制条件。和另一篇CIKM2017的文章一样,都是讨论的debate forum的stance detection。不过跟目前要做的问题有差别。 |
Stance Detection with Hierarchical Attention Network | COLING | long paper | 2018 | 4 | TO BE CONTINUED |
Predicting Stances from Social Media Posts using Factorization Machines | COLING | long paper | 2018 | 2 | stance detection on silent user。自己爬取的Twitter日语数据;使用FM进行建模,利用了四部分信息作为特征:用户信息、topic信息、用户在其它topic上的stance、用户的posts。实验部分只进行了各部分特征的实验,以及多数投票的baseline。角度新颖,但文章集里几乎没人做,数据也是用的自己的爬的。如果之后用FM的话可以回过头来看。 |
Can Rumour Stance Alone Predict Veracity? | COLING | long paper | 2018 | 1 | … |
A Retrospective Analysis of the Fake News Challenge Stance Detection Task | COLING | 2018 | long paper | 4.5 | TO BE CONTINUED |
A Dataset for Multi-Target Stance Classification | EACL | long paper | 2017 | 3 | 这篇文章主要是提出了一个数据集,但这个问题和正在做的AIC、DF是类似的,即一个样本中含有多个target,需要预测对于不同target的态度(情感)。本篇文章也提出了一个框架,利用seq2seq,decoder端利用target1的label作为target2的预测输入一部分。这种方法假定了target之间是有关联的,比如针对两位选举候选人的看法,因此数据集构建中也是每条数据包含了两个target。这样还是把问题做的太细了,假设也太强,距离AIC、DF的实际问题还很远。 |
Stance Classification of Context-Dependent Claims | NAACL | long paper | 2016 | 2.5 | 一篇比较水的文章,paper2paper的工作,在IBM之前构建的claim数据集上进行stance的检测。分为三步:1、识别给定topic和claim的目标;2、识别对应目标的情感;3、确定针对目标的表意是否一致。三部分的模型都用的传统方法,包括句法树、情感词、条件概率等。 |
Topical Stance Detection for Twitter: A Two-Phase LSTM Model Using Attention | ECIR | journal | 2018 | 4 | TO BE CONTINUED |
Stance Detection with Bidirectional Conditional Encoding | EMNLP | long paper | 2016 | 4.5 | TO BE CONTINUED |
ConStance: Modeling Annotation Contexts to Improve Stance Classification | EMNLP | long paper | 2017 | 1 | … |
From Clickbait to Fake News Detection: An Approach based on Detecting the Stance of Headlines to Articles | EMNLP | short paper | 2017 | 2.5 | FNC-1;两阶段方法,先使用基于词形还原的n-gram来对headline和body的匹配度打分(自定义的公式),二分类为是否相关,若相关则使用LR继续判定细分的类别。这是FNC-1的9th的解法,很简单。足以反映基于词频、只依赖词频的模型已经能很好地解决这一问题。9th的得分为9270,1st为9556,并不需要神经网络。 |
Fake News Detection using Stacked Ensemble of Classifiers | EMNLP | workshop | 2017 | 1 | … |
Stance classification with target-specific neural attention networks | IJCAI | long paper | 2017 | 4.5 | TO BE CONTINUED |
Integrating Stance Detection and Fact Checking in a Unified Corpus | NAACL | short paper | 2018 | 1 | … |
360 Stance Detection | NAACL | shrot paper | 2018 | 2 | 自己爬的数据集;本文主要实现了一个web工具,用户输入一个query(topic),工具自动展示各大消息网站关于该topic的相关内容,以及标注的stance。 |
Automatic Stance Detection Using End-to-End Memory Networks | NAACL | long paper | 2018 | 4.5 | TO BE CONTINUED |
Overview of NLPCC Shared Task 4: Stance Detection in Chinese Microblogs | NLPCC | 2016 | 3.5 | NLPCC 2016 shared task 4 的官方总结文章。主办方以新浪微博为数据源,采集了5个target共3000条数据做训练集(subtask A),数据是由学生标的。top-1选手使用的是手工特征+SVM/RF,其他也大多使用的是手工特征。在文章集中很少看到使用这个数据集的,方法不具有太大的创新价值,都发表在了NLPCC上,方法也多为传统方法。文章前面关于stance detection的任务定义、与情感分析的区别总结的很好,值得一看。以后如果要使用该数据集并进行结果对比时,再回来索引相关参赛队伍的文章。 | |
Multi-Target Stance Detection via a Dynamic Memory-Augmented Network | SIGIR | short paper | 2018 | 4 | TO BE CONTINUED |
SemEval-2016 Task 6: Detecting Stance in Tweets | SemEval | 2016 | 5 | TO BE CONTINUED | |
SemEval-2017 Task 8: RumourEval: Determining rumour veracity and support for rumours | SemEval | 2017 | 5 | TO BE CONTINUED | |
Detect Rumor and Stance Jointly by Neural Multi-task Learning | WWW | long paper | 2018 | 4 | TO BE CONTINUED |
Ranking-based Method for News Stance Detection | WWW | short paper | 2018 | 3.5 | TO BE CONTINUED |
Combining Neural, Statistical and External Features for Fake News Stance Identification | WWW | long paper | 2018 | 4 | TO BE CONTINUED |
Detect Rumor and Stance Jointly by Neural Multi-task Learning | WWW | workshop | 2018 | 4 | FNC-1;三路神经网络分别编码:词向量特征、TF特征、外部特征。其中使用了skip-thought embedding,说可以衡量句子相似度。之后要去看一下。然后模型结构很普适,神经网络分别建模各部分特征,再由另一个神经网络来组合特征表示。 |
Detection and Resolution of Rumours in Social Media: A Survey | ACM Computing Surveys | journal | 2018 | 5 | Survey |
Combining Similarity Features and Deep Representation Learning for Stance Detection in the Context of Checking Fake News | ACM Journal of Data and Information Quality | journal | 2018 | 5 | TO BE CONTINUED |
缩写解释:
- AIC:AI Challenger
- DF:Data Fountain
- FNC-1:Fake News Challenge — 1st period
TO BE CONTINUED 标注的论文,会在后面单开博文来详细讲。