(Paper)使用LSH对Twitter做首报道检测(FSD)

本文地址:http://blog.csdn.net/mounty_fsc/article/details/51438405

《Streaming First Story Detection with application to Twitter》论文笔记

这篇论文使用改进的LSH算法进行首报道检测,针对Twitter。LSH算法在多媒体检索里面也是常用的。

主要内容:

  1. 改进单纯应用LSH算法至FSD以提高精度
  2. 继续改进以能处理网络流文本
  3. 继续改进以能处理Twitter数据

6

  1. 介绍FSD与LSH
  2. 由于单纯把LSH(近似近邻)用于取代FSD的最近邻导致效果不好,所以提出一种策略
  3. 如何在无限数据的web文档流上做FSD(文档流的特点)
  4. 如何在Twitter上做FSD(Twitter上垃圾信息多)
  5. 实验

7

8

9

10

11

12

13

  • 事实上,还有其他策略,如全局的文档数量限制,保存近30天的

14

15

16

17

18

19

  1. 通过调整评分判定为新话题的阈值,得出图1
  2. 图1中没有限制bucket的大小
  3. 图1UMass系统用了28个小时,而本文方法用了2小时
  4. 图2单位是100个文档为一批

20

  1. 没有使用 @内的信息,因为希望算法能独立于各种流类型

21

22

©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值