论文研读-社交媒体可视化-大规模地理社交媒体数据的可视化抽象与探索

1 论文概述

2019年11月18日发表在Neurocomputing上题为Visual abstraction and exploration of large-scale geographical social media data的一篇文章,浙江财经大学、浙江大学计算机辅助设计与计算机绘图国家重点实验室的成果。

1.1 摘要

带有地理标签的社交媒体数据提供了大量的文本和地理信息,这为深入了解不同地方的社会行为提供了前所未有的机会。随着地理标记社交媒体数据规模的不断扩大,大量的视觉映射元素相互重叠,难以视觉捕捉感兴趣的主题及其空间分布。(问题)

在本文中,我们提出了一个可视化的抽象框架,用于探索大规模地理标记的社交媒体数据。首先利用概率主题模型对文本的语义进行总结,提取出一组感兴趣的主题特征。然后,设计了一种多目标抽样模型生成原始数据集的一个子集,这不仅会降低大型社交媒体数据可视化的视觉上的混乱,但也保留感兴趣的主题的排序功能以及原始社会媒体的地理分布数据集。可视化抽象框架集成了丰富的可视化设计,如文字云、文本流和热图等,使用户能够从语义主题、时间变化和空间分布等不同角度对采样结果进行评估。 (方法和结果)

基于真实世界数据集的案例研究和对领域专家的采访,证明了我们的系统在简化大规模地理标记社交媒体数据的地理可视化以及探索不同地方的社会行为方面的有效性。(评估)

1.2 引言

社交媒体是一种交互式的、流行的基于web的技术,允许用户通过在线社区和网络发布和分享信息、想法和其他表达形式。随着计算机科学和互联网技术的发展,一套丰富的应用程序被开发出来,帮助用户方便地访问社交媒体服务,如Twitter、Facebook和微博。作为最受欢迎的社交媒体平台,Twitter拥有超过3.35亿活跃用户,每天发布近5亿条推文。因此,为深入了解人类生活和社会行为提供了前所未有的机会,从公共安全、城市服务到电子商务、营销[1]等各个应用领域都具有重要意义。(背景

在文本挖掘和可视化分析领域,已经有大量的技术被提出用于热点话题的提取和跟踪。例如,LSA[2]、PLSA[3]和LDA[4]是传统的文本数据挖掘模型,用于主题提取。Havre等人提出了一系列视觉分析系统,对演进主题[5]进行视觉化。近年来,许多研究聚焦于基于地理标签的社交媒体数据可视化分析[6 - 8],其发布的文本总是在地理地图视图中标注点,使用户能够轻松捕捉感兴趣的主题的空间分布。不幸的是,由于地理标记的社交媒体数据集的规模不断扩大,视觉映射元素相互重叠,这在很大程度上干扰了对当地社会行为的视觉感知和探索[9 - 11 1]。例如,大规模的社交媒体数据集的实际分布似乎是一致的,但往往由于视觉杂波而误导用户[11]。因此,在地图视图中可视化地呈现大规模地理标记的社交媒体数据集是一项困难的任务,这是从空间信息学到可视化分析等研究领域的一个感兴趣的话题[12,13]。(问题

为了减少大规模地理空间数据可视化中的杂波,人们提出了各种各样的方法,如填充、聚合和采样。为简化大规模的地理可视化,在过滤方案中经常考虑属性信息。属性值位于感兴趣范围内的数据项被保留,而其他的在结果可视化中被过滤掉[6,14,15]。聚合方案考虑数据项的spa分布,将彼此靠近的可视映射元素聚合为超级元素,如节点聚合[16]和边缘捆绑[17,18]。采样是简化地理空间可视化的一种有效方法,它选择数据项的子集来表示原始的大规模数据集,采样结果中保留属性信息或spa分布[18,19]。虽然采样策略能够减少大规模地理可视化的视觉杂波,但往往只关注原始数据集的空间分布,忽略语义信息。尤其对于地理标记的社交媒体数据集,文本是探索社会行为的重要线索。考虑到文本的语义特征,将极大地提高采样的有效性。(目前解决方案

在本文中,我们提出了一个可视化的抽象系统,以直观地探索地理社交媒体数据集。首先,对社交媒体文本的语义结构进行概率主题建模,将数据项划分为不同的主题。然后,设计一个快速采样模型来保持主题的特征分布,在不进行过多采样的情况下生成原始数据集的子集。在快速采样的过程中,通过蓝噪声采样进一步优化了采样结果的空间分布。我们提供了多种视觉设计,让使用者可以从不同的角度(如话题变化、话题演变和话题分布)来评估我们的抽样模型的有效性。实现了一个可视化框架,将采样模型、可视化设计和丰富的交互集集成在一起,使用户能够轻松感知感兴趣话题的空间分布,并对人类在线社交行为有更深入的了解。(本文解决方案)

本文贡献

文章组织结构

1.3 文章贡献

  1. 一种减少社交媒体数据集规模的快速抽样模型,在很大程度上保留主题的特征分布。
  2. 快速采样和蓝噪声采样相结合,也将尽可能保留语义结构的空间分布。
  3. 一套从语义,时间演变和空间分布等不同的角度来评估主题的变化的改进可视化设计
  4. 集成了算法模型、评估设计和可视化界面的可视化抽象系统,使用户能够轻松地探索人类在线社交行为。

1.4 文章组织结构

本文的其余部分的结构如下:
第2节回顾了相关工作
第3节介绍了本文使用的数据集、分析任务和系统概述
第4节详细介绍了用于探索地理社交媒体数据的快速抽样模型
第5节介绍了可视化框架的可视化设计
第6节讨论了领域专家访谈案例研究
第7节得出结论,并对未来的研究进行展望

2 相关工作

在本节中,相关工作分为主题建模与评价、社交媒体数据可视化和地理数据可视化抽象三大类。

2.1 主题建模和评估

主题建模是一种常用的文本挖掘方法,用于捕获文档集合中的语义结构。主题模型分为非概率模型和概率模型两大类。向量空间模型(VSM)[20]、潜在语义索引(LSI)[2]和非负矩阵因子化(NMF)[21]是常用

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值