【论文笔记 5】An Unsupervised Framework of Exploring Events on Twitter...

An Unsupervised Framework of Exploring Events on Twitter: Filtering, Extraction and Categorization

论文题目

  • 作者:Deyu Zhou, Liangyu Chen, Yulan He

  • 作者单位:

    Southeast University, China

  • 发表会议:12th AAAI

  • 发表年限:2015

背景 Modivation

背景:社交媒体成为事件信息的重要来源甚至独家来源

解决问题:解决了社交流中信息自动提取的问题。

原因:社交流中事件信息规模庞大或受众有限,人的注意力无法很好观察,需要有自动化的方法在社交流中提取事件

传统方法

传统方法分为三类

  • 基于模式的模型
  • 基于机器学习的模型
  • 前二者的混合模型

TwiCal 利用标注数据训练标记器,提取事件短语

EvenTweet 从推文流中提取事件,并使用时间、位置等关键字描述

不足:

  • 碎片化且噪声大,无法有效过滤社交流中的错误信息或适应其短文本的特征
  • 事件类型多,标注数据的方法只能涵盖有限种类的事件,但是显然事件的种类集是不可能被事先知道的
  • 冗余,同一事件可能对应多个同样的信息,这些信息有较大的冗余

idea

一个端到端的框架,包括过滤、提取、分类。分类采用本文提出的LECM模型,可以无监督地提取和分类事件

过滤:基于词典,留下与事件相关的推文

提取、分类:潜在事件和类别模型(LECM)的无监督贝叶斯模型,不需要人工干预,为类别匹配事件标签。最后利用<y命名, d日期, l位置, k事件中关键字>四元组描绘事件。
在这里插入图片描述

Pipeline

  • 推文过滤

    词典过滤:构建该推文相同时期发布的新闻中提取的关键字,然后仅保留推文中有词典单词的推文。【可改进】

    二进制过滤:二分类,构建事件推特常出现的特征词等词素

  • 事件抽取与分类:Preprocess->LECM模型->Post processing

    post processing 通过限制事件e在元素中的出现次数,来过滤重复事件。

实验

两个推文数据集,数据集1为事件不相关推文,数据集2为相关推文

精度:正确识别推文/事件相关推文【存疑】

精度70.49% 优于baseline6%

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值