(Paper)使用LSH对Twitter做首报道检测(FSD)

本文地址:http://blog.csdn.net/mounty_fsc/article/details/51438405

《Streaming First Story Detection with application to Twitter》论文笔记

这篇论文使用改进的LSH算法进行首报道检测,针对Twitter。LSH算法在多媒体检索里面也是常用的。

主要内容:

  1. 改进单纯应用LSH算法至FSD以提高精度
  2. 继续改进以能处理网络流文本
  3. 继续改进以能处理Twitter数据

6

  1. 介绍FSD与LSH
  2. 由于单纯把LSH(近似近邻)用于取代FSD的最近邻导致效果不好,所以提出一种策略
  3. 如何在无限数据的web文档流上做FSD(文档流的特点)
  4. 如何在Twitter上做FSD(Twitter上垃圾信息多)
  5. 实验

7

8

9

10

11

12

13

  • 事实上,还有其他策略,如全局的文档数量限制,保存近30天的

14

15

16

17

18

19

  1. 通过调整评分判定为新话题的阈值,得出图1
  2. 图1中没有限制bucket的大小
  3. 图1UMass系统用了28个小时,而本文方法用了2小时
  4. 图2单位是100个文档为一批

20

  1. 没有使用 @内的信息,因为希望算法能独立于各种流类型

21

22

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值