【论文笔记 5】An Unsupervised Framework of Exploring Events on Twitter...

NEU_XXQ

于 2021-03-10 11:29:24 发布

阅读量204

点赞数

分类专栏： NLP 文章标签：机器学习自然语言处理 nlp 图论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/NEU_XXQ/article/details/114631084

版权

NLP 专栏收录该内容

8 篇文章 2 订阅

订阅专栏

An Unsupervised Framework of Exploring Events on Twitter: Filtering, Extraction and Categorization

论文题目

作者：Deyu Zhou, Liangyu Chen, Yulan He
作者单位：

Southeast University, China
发表会议：12th AAAI
发表年限：2015

背景 Modivation

背景：社交媒体成为事件信息的重要来源甚至独家来源

解决问题：解决了社交流中信息自动提取的问题。

原因：社交流中事件信息规模庞大或受众有限，人的注意力无法很好观察，需要有自动化的方法在社交流中提取事件

传统方法

传统方法分为三类

基于模式的模型
基于机器学习的模型
前二者的混合模型

TwiCal 利用标注数据训练标记器，提取事件短语

EvenTweet 从推文流中提取事件，并使用时间、位置等关键字描述

不足：

碎片化且噪声大，无法有效过滤社交流中的错误信息或适应其短文本的特征
事件类型多，标注数据的方法只能涵盖有限种类的事件，但是显然事件的种类集是不可能被事先知道的
冗余，同一事件可能对应多个同样的信息，这些信息有较大的冗余

idea

一个端到端的框架，包括过滤、提取、分类。分类采用本文提出的LECM模型，可以无监督地提取和分类事件

过滤：基于词典，留下与事件相关的推文

提取、分类：潜在事件和类别模型（LECM）的无监督贝叶斯模型，不需要人工干预，为类别匹配事件标签。最后利用<y命名, d日期, l位置, k事件中关键字>四元组描绘事件。
在这里插入图片描述

Pipeline

推文过滤

词典过滤：构建该推文相同时期发布的新闻中提取的关键字，然后仅保留推文中有词典单词的推文。【可改进】

二进制过滤：二分类，构建事件推特常出现的特征词等词素
事件抽取与分类：Preprocess->LECM模型->Post processing

post processing 通过限制事件e在元素中的出现次数，来过滤重复事件。

实验

两个推文数据集，数据集1为事件不相关推文，数据集2为相关推文

精度：正确识别推文/事件相关推文【存疑】

精度70.49% 优于baseline6%

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记 5】An Unsupervised Framework of Exploring Events on Twitter...

An Unsupervised Framework of Exploring Events on Twitter: Filtering, Extraction and Categorization论文题目作者：Deyu Zhou, Liangyu Chen, Yulan He作者单位：Southeast University, China发表会议：12th AAAI发表年限：2015背景 Modivation背景：社交媒体成为事件信息的重要来源甚至独家来源解决问题：解决
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。