社交媒体文本挖掘在交通信息提取中的应用与挑战
1. 文本挖掘助力交通信息提取
文本挖掘为在大量传入消息中自动识别与交通相关的消息提供了有效手段。不过,社交媒体消息流具有无限性,这从多个角度带来了挑战。从性能方面看,社交媒体上的内容随时间快速变化,需要对系统进行定期监控和可能的重新调整;从评估角度而言,无法识别数据流中的所有相关消息,因此难以精确计算召回率。
但社交媒体的海量数据也具有重要优势,其信息具有高度冗余性,不同表述的多条消息可能传达相似内容。这意味着即使文本挖掘过程可能会忽略一些相关消息,也不一定会对文本分析过程的输出产生重大影响。
2. 交通相关内容文本挖掘案例研究
2.1 背景
为了说明在搜索交通相关信息时文本挖掘涉及的各个步骤,以利物浦足球比赛为例进行研究。由于从社交媒体获取信息的复杂性,研究聚焦于提取与体育和文化等大型活动往返行程相关的交通信息。利物浦足球比赛是定期举行的活动(每个赛季近40场比赛),且日期和地点明确,便于对获取的信息进行清晰且有意义的解释,并评估其与交通服务的相关性。同时,选择Twitter作为社交媒体信息源,因为它是英国广泛使用的实时信息渠道,且过往研究表明它可作为实时获取体育赛事信息的来源。
研究的总体方法如下:
- 从Twitter的一般消息流中过滤出与利物浦足球比赛大致相关的消息。
- 使用专用分类器识别并提取与交通相关的消息。
- 采用监督学习方法创建模型,将消息与预先指定的感兴趣类别关联起来。
- 每条消息表示为“词袋”,即包含的术语集合,并根据术语计数进行加权。除了单字词(unigrams),还使用多字词特征(代表单字、双字和
超级会员免费看
订阅专栏 解锁全文
1233

被折叠的 条评论
为什么被折叠?



