本篇博客用于总结2018年IGAL九期班赵健老师做的报告,赵健老师的报告分为上午和下午两堂。主要介绍了他们团队利用可视化来解决人员相互沟通交流的问题和设计出的软件,这不仅为我们的研究方向提供了思路也为今后的可视化图像的设计方面提供一些新的想法,而且从本次报告中学习到了他们是怎样来设计一个非常实用的软件并解决的一个问题的过程。
以下是学习听取赵健老师报告的学习笔记:
上午时段:
问题1、怎样把脑子的想法展示出来
(1)展现的方法:
头脑风暴
纸质写出
脑图
(2)做的工作:
调查结果4点:
G1:多策略在迭代和灵活的工作流程中支持多种构思策略
(想要不同的策略)
G2:转移到逻辑序列协助用户找到逻辑序列来呈现想法
(线性转换)
G3:推荐语义和结构帮助用户找到灵感,产生想法并克服障碍
(推荐)
G4:纸张般的支出支持笔和纸的细微差别和流动性,以实现预写的流动性和自由形式
(可以在纸上的一些交互工具)
(3)根据调查完成后设计的软件:InkPlaner:
吧头脑风暴思维导图等绘制的图转换成一个故事线
再通过故事线可以转换成大纲,然后可以写作
在一张空白的纸上写出想到的关键词,然后可以用箭头链接并且可以随意拖动,最右边是一个
根据你写关键词的过程形成的故事线,并且可以调整故事线
推荐:文字上的推荐和结构上的推荐
文本数据学习,将推荐的词链接起来
搜索
(4)回顾四个调查结果检查完成度
(5)专家讨论,结合任务测试
反馈良好
问题2、怎样展示脑子里的想法和数据中得到的东西?
(1)引入:excel展示自己的想法
标注
贴纸等
(2)怎样用可视化的方法来展现数据上得到的想法:
注释不堪数量复杂关系失去思想过程哪个先来?
这取决于哪个?
在分析数据和标注的数据时的三个东西:数据段、短标签、文字评论
显式关系:例如,标签的共现隐含关系:例如,数据的相似性
提出并设计的解决方法:
软件:Annotation Graphs
用网络的方式把用户的标注联系在一起
三个不同展示的结构:
1、高维的关系投影到2D图上
2、以某个中心来看标注和数据
3、slice plot
怎样生成图的layout(布局,安排):
1、用户的输入
把某个点或部分交互在一起
2、机器的输入、
基于相似度
具体实现:
问题3、怎样把得到的知识进行传递?
引入:传话游戏,传到最后损失了很多信息,意思改变
怎样通过可视化让这个过程变得更容易?
Starting over、Naive browsing
Hubs and bridges
Random access
Tracing from the origin(KTGraph Baseline)
在异步合作模式下:
在数据分析中,希望传递的最佳效果是直接在前面的数据上衔接,但实际
上是无法实现的,需要理解前人的基础上才能更好的做下去。
怎样在更好的情况下理解前人传递的结果?
软件KTGraph:基于一个图的结构来表现一个知识
1、引入其他相关的外文知识点
2、加总结告诉下一个人总结到哪
3、timeline:记录了前人想法的过程而且可以倒放,让当前的人来了解
用VAST2006的挑战赛去测试
问题4、怎样把这些得到的结果高效的总结起来?
在数据科学中共享分析
“Jupyter Notebook是一个开源Web应用程序,允许您创建和共享包含实时代码,方程式,可视化和叙述文本的文档。”
问题:有很多个人,每个人产生的问题不一样、方法结果可能也不一样,怎样把这些合在一起?
由此他们设计软件:Chart Constellations
(1)将每个图变成一个点,然后用语义的方式投影到二维的平面上,然后用像星座之间的
连线一样,将有关的点连接起来,点击感兴趣的点可以详细查看
(2)将没分析出的可以进行推荐
(3)右边矩形树图展示相关属性,按使用频率划分
难点:计算图与图之间的相似度
1、编码:与最小编辑长度类似的量化图表差异(例如,标记,通道,颜色......)Graphscape [Kim 2017]
2、关键词:用户生成的图表描述符相似性(例如,标签,评论,降价,......)Word2vec [Mikolov 2018]
3、维度:数据属性重叠和相关[Peltonen 2015]
最后将三个相似度加起来成为整个图形的相似度
总结:在上午的介绍中,赵健老师通过抛出四个科学可视化相关的问题,来介绍了他们团队发现问题、需求调查、设计解决相关问题软件、测试软件有效性等过程,其中提出的四个关键性问题对我有着很大的启发,其研究并解决这四个问题设计出软件的的过程对我们也有范例式的作用。
下午时段:
数据科学工作流程设计可视化
问题1:输入的数据看起来都是一样的,但是分类器的结果却是非常不同的,为什么?
问题2:“我正在建立一个神经网络分类器。我尝试了很多方法,但它不起作用......为什么?“
用线性的数据去做非线性的分类,它(分类器)有可能不工作
在创建或调试模型的时候需要可视化因为可视化可以帮助我们知道模型是怎么工作的,这样才能更好的
调整模型。
问题3:“我终于得到了一些好成绩,但我的老板无法理解他们......”
原因:老板不是研究这些方面的
方法:通过可视化的方法让他理解
数据科学的工作流程:
输入准备 数据探索 模型开发 观察沟通
交互式可视化是至关重要的!
创建正确的可视化实际上很难
问题/数据
特定没有简单的一刀切解决方案技术
建造特别的可视化需要特别技能
Matplotlib,D3.js,ggplot2,...
设计意识
巨大的设计空间,有很多的创造方法
怎样用可视化的方法让数据模型和用户来联系的更紧密一些?
1、数据探索
怎样探索一个很大的数据
选择一个列、范围大小、取平均等等。。。。
探索时间数据序列:用户调研
目标:了解常见做法,现有困难和挑战,需求和要求
ChronoLenses:
动态管道:镜片系列(像一个放大镜似的将每个想要查看的数据一层一层放大)
选中一段时间的数据,可以对这一段数据做各种运算,然后拖动选中框可以观察
做运算后的数据的变化情况。
利用分析模型探索大型信息空间
怎样让用户去选择正确的视频
软件:MOOCCex帮助大家探索当前需要的视频
每个圆点代表一个视频,把当前学习的视频和推荐的视频都投影到一个二维平面上
根据他们之间的相似度分成各个小区域,点击这些小区域弹出该类视屏的排序。
推荐时
在传统的基础上增加:
Topic similarity score (TS)
Global sequence score (GS)
Local sequence score (LS)
FluxFlow:
每个小圆圈代表一个用户颜色代表异常值
3、用户与用户之间的交互
微信、叮叮等沟通软件,产生问题:
1、消息泛滥
2、异构和交错解决内容
解决的方法:
软件:T-cal