2022ChinaVis会议笔记

最新推荐文章于 2022-08-01 10:40:33 发布

城北故人旧

最新推荐文章于 2022-08-01 10:40:33 发布

阅读量1.1k

点赞数

分类专栏：可视化文章标签：算法大数据人工智能

本文链接：https://blog.csdn.net/qq_44701772/article/details/126017234

版权

可视化专栏收录该内容

2 篇文章 0 订阅

订阅专栏

ChinaVis2022会议记录

7.22

课程一、基于OBE理念的可视化教学探索与实践

陈谊教授介绍了可视化领域的顶级期刊以及学习可视化的一些建议。
在演讲中教授提到的可视化流程为：
a.数据任务抽象
b.可视编码与交互设计
c.验证与评估：主要从算法效率、交互设计合理性两方面进行评估验证。
同时教授提到了他们在学堂在线的可视化课程《数据可视化-分析与设计》，看了下课程框架，从数据的处理到多维数据、文本数据的可视化以及可视化评估都有讲，趁着暑假把这个课程学完。

课程二、图布局基础、方法及应用

汪云海老师首先介绍了有关图的基本概念，如平面图、简单图、图的密度等。接着介绍了图处理在可视化领域中的挑战，重点介绍了几种力导向布局算法。
1.传统的力导向布局算法可抽象为三步：
a.计算目标点和相连点之间的引力
b.计算目标点与不连接点之间的斥力
c.计算目标点受到的斥力与引力之和从而计算点的位置分布。

2.Barnes-Hut算法：根据数据投影在屏幕上的位置创建四叉树，将远处的点聚合为一点从而提升计算速度的算法。
算法过程抽象为
a.构建索引
b.根据屏幕投影位置创建四叉树
c.将远点聚合为一点并计算两点之间的斥力。

3.Privot MDS算法：
随机计算k个点之间的力
** Stress Model算法**：引力的计算需要求出所有点之间的最短路径，点之间的斥力计算与MDS算法相同
**5.**之后介绍了一种论文提出新的算法模型，在降低了计算复杂度的同时，还可以对图的布局进行约束。

7.23

一、大会特邀报告1

Practical Advice for Data Visualization，Machine Learning，and Artificial Intelligence
Edward Tufte教授介绍了数据分析和数据可视化的基础在于呈现对比，在可视化的过程中需要经常询问自己要与什么进行对比。教授提到良好的数据可视化需要高分辨率进行呈现，一个好的可视化是简单的设计与复杂数据的结合。我的理解是将复杂数据以简单的可视化效果呈现，使数据变得易于理解。教授讲到数据可视化中数据决定了可视化的质量、可信度以及真实性，所以数据在进行可视化之前需要对数据进行审计、检查和测试。评估数据采集的品质有两种方法a.在数据测量时直接观察数据集b.通过观察数据收集过程、探测工作、数据库审计来衡量测量误差。最后教授提出一个好的可视化模型需要具备honest、independent、replication三个特点，找到适合数据集的数据模型使可视化效果事半功倍。

二、圆桌论坛1：人文遇见可视化

在论坛中，大会嘉宾们讨论了人文与自然科学研究的关系：
a.它们都是以数据为驱动的研究范式
b.可视化工具对人文知识的加工传播等起推进作用
c.可视化呈现推动了研究证据、事实、结论的确认、验证以及数据叙事的沟通
d.多学科交叉的协同创新
同时展示了可视化对于文物领域研究的三个贡献：
a.沉浸式可视化推动了文物病害调查、虚拟保护研究和实践范式的转变
b.可视化推动了文物知识的细粒度组织、生产、推动文博业务智能化
c.可视化呈现成为展览展示文物价值传播的主要手段，参会老师提到的数字人文的初心是对文化的热爱与认可，让客观的代码逻辑体现出了主观的人文温度。

三、专题03交互可视化

1.当空间成为可视化界面：基于智能物联网的外围信息可视化
安鹏铖老师介绍了基于智能教室的教师注意力空间分布可视化案例，通过可视化教师的行为轨迹发掘教师在教学过程中的注意力分布模式，对教师的教学模式进行反馈调整。
提出了在智能课堂背景下的增强智能交互设计的五个维度，分别是
a.增强目的：注意目标是什么、采取何种措施增强目的，主要方向为自主性和自动化
b.注意力资源：低注意力水平主要面向注意力外围，而高注意力水平面向注意力中心，主要方向分别为不可见性和信息含量
c.社交可见度：低社交可见性指分享的信息仅教师可以查看，而高社交可见性是指整个班级都可以看到信息，前者针对教师私密性后者则重视学生老师相辅相成。
d.时间存在性：偶然呈现是指按要求或者在上下文中展示信息，始终呈现指信息和机会接口持续保持
e.人机诠释：
2.超越可视化:多模态数据体验
麻晓娟老师讲述了在所有感官中视觉为主要感知信道的原因,根据所用感官不同可以将可视化分为数据可视化、数据物理化、数据知觉化、数据可食化和数据声音化。将数据的物理属性利用人的不同感官进行展示。
3.以用户为中心的可视化设计和交互的生命周期
李权老师介绍了如何以用户为中心通过可视化+人机交互设计用户交互界面。首先介绍了90年代的可视化流程
90年代可视化流程
与现代的可视化流程
现在的可视化流程
接着在目前的可视化流程中主要有三个问题：如何在分析环节中影响用户、高效的用户交互和界面是什么、从可视化中可以获得传达哪些知识。
以用户为中心的可视化核心有六个要素：
请添加图片描述
a.反映设计目标、处理过程和用户决策
b.检查用户行为和体验
c.在合适的地方引入自动化处理
d.协同合作和用户在环设计
e.探索数据、任务和设计空间
f.理解用户及使用场景

之后以游戏场景中的交互分析为例讲述了如何通过可视化协助游戏中的UI设计。

** 4.面向知识图谱构建的可视分析与人机交互方法研究**
首先引入了知识图谱的概念，之后介绍了知识图谱的搭建流程
请添加图片描述然后分三方面介绍了知识图谱面临的挑战：
a.数据应用：应用场景多样；用户需求个性化专业化；安全性及合规性要求高
b.数据处理：大量文本、图像等非结构化数据；行业标准不统一、难以复用、难以沉淀
c.数据集成：多系统异源异构数据；数据质量参差不齐、多样性显著；数据集规模大、冗余性强。

接着提到了知识图谱自我悖论为手工构建成本高和自动构建精度低，由此引出交互式实体智能抽取方法研究，介绍了该方法的存在问题、目标任务、关键技术和研究内容，展示了该方法的研究框架交互式实体智能抽取方法研究框架另外介绍了交互式关系抽取与矫正方法研究，讲述了关系抽取方法的研究进展，以及交互式关系抽取与矫正方法的处理流程关系识别:获取实体关系数据的向量表示
知识嵌入：获取实体关系之间的向量表示，为语义相似度计算和矫正推荐做铺垫。
实体关系判断及矫正：以树形布局可视化实体关系三元组数据，用户通过浏览和分析三元组对应的语料详情，综合客观评分与个人经验判断关系正误。
基于语义相似度的实体关系校正参考推荐，将待校正数据可能的关系类型用可视化词云呈现给用户，用户通过浏览分析推荐关系的对应语料来全面、客观的判断和选择关系标记。

四、安全可视化

1.网络黑灰产业可视化
首先介绍了黑灰产业的背景知识，阐述了黑灰产的定义、黑灰产的分类以及黑灰产治理手段
黑灰产分类：a.内容秩序威胁型；b.数据流量威胁型；c.技术威胁型；d.暗网
目前针对黑灰产业的打击手段为查证和封堵核心网络，监管部门在打击击黑灰产业面临的两个难题为a.缺乏自动的网络资产信息整合手段b.缺乏直观的网络资产信息呈现手段，对应可视化工作分别为黑灰产网络知识图谱构建以及黑灰产网络资产图谱可视化。
黑灰产网络知识图谱构建基本流程：
黑灰产常见的8种网络资产类型：

请添加图片描述
黑灰产可视化的总体思路：8种网络资产和11种关联关系构成黑灰产网络资产图谱抽象模型，通过多种技术手在多个公开数据源中提取网络资产实体及关联关系，整合得到黑灰产网络资产图谱数据。
黑灰产网络资产图的特点：
a.全局稀疏，局部稠密；
b.存在多个簇结构，且簇结构多样化；
c.簇结构之间存在复杂桥接结构

黑灰产图布局算法(SE-BH-CAG)
以SE-BH图布局算法为基础，从视觉效果和时间两个方面进行优化。
视觉效果优化：修改了簇内节点引力计算公式，使簇内节点距离更紧凑；修改了簇简节点引力计算公式，使桥结构视觉更突出。
时间优化：引入BarnesHut四叉树复用技术减少力的迭代时间。

之后介绍了核心网络资产识别方法思想、方法实现流程。
**核心网络资产识别方法思想：**采用自顶向下、分类求精的思想分别寻找簇中心和桥节点。
方法实现流程：
a.利用随机游走介数中心性、h-index指数寻找候选簇中心集合
b.利用度中心性，h-index指数找到正式簇中心集合，并进行簇中心分桶
c.利用业务知识对正式簇中心集合进行过滤
d.寻找属于不同簇中心分桶的簇中心之间的桥接链路
e.利用业务知识对桥接链路上桥接结点进行过滤
f.最后得到核心资产节点和关键链路节点

然后展示用于发现黑灰产网络资产图谱中核心资产作用范围的一些社区检测算法，引出了LFM-CAG(LFM for Cyber Assest Graph)社区检测方法的设计思路以及方法实现流程。
最后介绍了一些图简化效果。
2. 基于活动的情报分析方法与应用
首先介绍了基于活动的情报分析的概念，提出了5W1H的情报分析模，然后介绍了Palantir的概念、服务对象和运行原理，palantir是一个集成智能搜索+可视分析，以知识图谱为底层构建的大数据可视分析平台。之后提出基于活动的情报分析方法为数据驱动+人在回路，即用感知智能完成who、what、where和when的工作，然后用人机交互和认知智能结合解决why和how的问题，将海量信息数据以可视分析的方法提高情报价值。
通过介绍相关领域知识图谱、地理知识图谱和事理知识图谱的应用和不足，提出了时空活动知识图谱构建流程

时空活动知识图谱构建流程
以恐怖袭击事件为例，介绍了GTD数据库的数据属性和活动知识图谱模型SAM，展示了恐怖袭击事件中模式层概念与层析关系的设计、数据层事件对象设计和事件层关系设计。
以新冠肺炎传播过程为例，展示了数据的清洗流程、系统层析关系设计、实体关联关系设计和河南省新冠肺炎可视分析系统。

五、论文报告2AI4VIS

1.A HyBrid Prediction and Search Approach for Flexible and Efficient Exploration of Big Data
（用于灵活高效大数据探索的混合预测和搜索方法）
论文首先介绍了传统的交互式查询检索数据记录并将其聚合进行可视化的方法，在数据集过大时查询速度缓慢，无法满足实时交互需求的问题。然后介绍了现有交互式探索的技术的优点和局限性
a.基于数据结构的查询优势：速度快、准确性高。局限性：存储开销大、功能灵活性不强
b.基于学习模型的方案优势：执行速度快、存储开销小。局限性：结果存在偏差、训练集过大、功能灵活性不强。
针对现有技术的局限性，提出一种混合预测和搜索的方法，该方法的原理为首先用数据集训练回归模型，之后当用户进行检索时，先用模型对检索范围进行预测，然后根据设定的阈值在一定范围内进行二分搜索来修正学习模型的误差。这样既保证了结果的正确性，又保证了查询的效率和存储开销
优化：a.用向量单元的结构代替底层原始数据进行存储；b.使用多GPU并行运算

2.Representation and Analysis of Time-series Data via Deep Embedding and Visual Exlporation
首先介绍了多维时序数据可视化的挑战和项目贡献。
挑战：a.对数据更好的可视呈现；b.对深度学习结果的更进一步探索；c.支持时序数据交互式分析
贡献：a.用于表示时序数据的深度学习模型TSRNet；b.用于探索性和可解释性分析的可视分析系统TSRvis；c.对于算法的评估以及系统的量化分析和案例研究

之后介绍了该系统的工作流程和算法的结构，

工作流程算法结构

然后展示了系统的可视化设计，着重讲了相似性矩阵的数据处理过程以及系统的分析任务。

最后阐述了未来的工作方向为a.对于深度学习模型的可解释性可视化；b.更灵活和易于扩展的可视分析系统设计c.更快速和精确的呈现方法

7.24

一、可视化工具与平台

1.智能可视分析工具发展的新趋势
李杰老师介绍了可视工具发展的三个新趋势与研究案例
a.有监督的智能模型：基于多视图表征的多维数据工具
b.搜索空间成为可视化工具的必须：可解释多维数据投影可视分析工具
c.可信与可解释分析：基于表征学习的人机混和智能分析工具

报告提出了未来工作方向：
a.基于人工智能的可视分析：哪些自动模型可用、如何在VA模型中结合自动模型、人在自动分析中的作用
b.人机智能结合的数据分析：如何表示、引入知识，如何深入利用人的知识
c.可信智能数据分析：如何展示、诊断、提高分析模型可信度
2.Atlas
3.声明式可视化动画的低代码构建平台
首先介绍了目前存在的动画工具，将它们分为基于关键帧的工具、基于模板的工具和陈述性语言构建，分别介绍了常见的软件名称、语言以及它们对应的缺陷。然后介绍了动画在可视化中的作用以及设计的四个维度：

请添加图片描述

之后介绍了该平台的开发动机：a.提供各种样式的图表动画；b.使图表动画制作更简单；c.用很小的尺寸但更高的渲染精度生成动画。
该平台的设计目标为：a.将语法规范和实现分离，采用更简洁高级的规范b.用有效的视觉标记来排序动画；c.跨平台性。
语法示例与编译流程

语法示例
编译流程

二、Multi-dimensional Visualization

1.负面评论引导的高维多元数据可视分析系统
介绍了一个国外餐厅负面评论数据可视分析系统，可帮助用户分析负面评论产生的原因和个体化差异。系统大致流程为a.基于情感分析，LDA主题提取构建负面评论数据集；b.生成负面评论处理结果，由三部分组成:负面评论主题影响因素、负面评论个体影响因素和代表性人物时变数据分析;c.可视编码设计；d.系统呈现
该系统采用SectiWordNet进行情感分析
情感分析公式
使用潜在迪利克雷主题模型进行主题建模，根据建模结果将评论内容分为味道、环境、服务和价格四个主题。
个体影响力评价模型

个体影响力评价模型
2.MVST-SciVis：Narative Visualization and Analysis of Compound Events in Scientific Data
首先在相关工作中介绍了a.三维时空数据可视分析常用方法多为二阶张量的叠加或者降维，缺点为信息丢失、无法直接比较时间趋势和相关性；b.事件可视化和多重影响力分析的常见方法和不足。
之后提出了用于处理时空相关的多维科学数据和捕捉相关事件驱动的数据处理流程以及基于故事线的科学数据可视化系统。该系统在相关视图中提供全局数据信息可视化，三级多粒度由可视化模块以时间概览图、单事件视图和驱动依赖视图组成，能够探索一组事件的驱动因素、驱动因素对单独事件贡献。故事线可视化视图从三个概念：角色（被空间位置划分的数据）、关系（空间时间相关性）、行动（多变量的演化）和两个等级：角色间的联系、变量值的变化对数据进行可视化。

三、可视化竞赛

会议流程大致为先介绍各个赛道的参赛人数和获奖比例，然后介绍了赛道1的解题思路，之后是各个赛道一二等作品的汇报演讲，最后是颁奖环节。
赛道一的参考答案讲解介绍了竞赛中涉及的五个黑灰产团伙的网络资产子图节点与边统计信息、核心网络资产与关键链路信息

团伙1 团伙2 团伙3 团伙4 团伙5
同时讲解了核心网络资产识别业务规则:
a.如果某个网络资产 50%以上的邻边关联强度较弱，则该资产不被认为是核心网络资产。
b.同时关联 2 个以上 IP 地址的 Domain 网络资产很大概率使用了内容分发网络。因此，Domain 网络资产所关联的多个 IP 地址不被认为是核心网络资产
关键链路识别业务规则:
a.两个核心网络资产间长度大于 4 跳的路径不被认为是关键链路。
b.两个核心网络资产间存在多条路径时，路径越短越重要。
c.两个核心网络资产间路径的关联强度越强则越重要。