第一天暑期班主要是袁老师做的可视化基础介绍、屈老师的可视化+以及Jaegul老师讲的前半部分实时交互2D嵌入的可视分析
总结人:tc
时间: 2017-7-9
1、可视化介绍(Introduction)
由数据科学,大数据引入,介绍了可视化的历史发展,大致讲了可视化在人与机器间起到了桥梁的作用,帮助人(科学家、领域专家、以及普通人)理解模型和数据。其中穿插了大量的例子,如经典的伦敦霍乱在地图上绘点来找到病原,还有14年VAST的石油公司部分员工失踪等。
最后还介绍了一些自动化的可视化工具,如iVisDesigner, Interaction+。可以实现较好的可视化效果
2、可视化+(Data Visualization:A Multi-disciplinary)
主要讲了可视化的跨界与融合,将可视化理解为:输入Data,输出Visual View,目标为insight的一个过程。可视化不单要做视觉呈现,还应该发现之前没有想到的问题。之后对可视化分类总结,分成三类:科学可视化、信息可视化和可视分析。同时类比翻译将可视化的标准定义为信、达、雅三个层次,信是指可视化的准确性,确保信息在可视化后与原始数据一致;达是指可视化效果直观有效,能够很好的反映数据的模式;雅则是要让可视化的效果美观。
其中还介绍了可视化与AI的结合,通过可视化让学者理解黑盒算法,如:明白算法为什么这样做,或者为什么不这么做;什么时候你这样做可以完成任务或者失败;以及如何改正这些错误。做的一个交互式机器学习。
之后讲了微信TechPower,交通轨迹数据和mooc数据可视化三个案例分析都有提到时序特征,而微信和慕课两个也都有网络特性,之后可以具体看其中的论文。
3、交互式二维嵌入可视分析(Visual Analytics Via Real-time Interactive 2D Embedding)
主要讲通过降维技术在2D空间进行可视分析,先介绍了高维数据如(人脸、文本)通过降维可以实现更小的存储空间,更少的计算量以及低维表示。
主要的方法有PCA,MDS,LDA(线性判别分析),这里的MDS和我之前用的MDS有一点出入,今天讲的有一个对原始空间位置保持的参数具体计算公式是
其中,多了理想距离thetaij,同时求解方法也变为梯度下降。其他的两种和之前学习过程中的都差不多。
之后还介绍了流型学习(manifold learning),其中对保持数据在高维空间中的结构信息的测地线距离(geodesic distance)还有点不太了解,比如说一个非常密集的数据在高维空间中的结构是如何获得的,因为做介绍的时候数据具有很强的结构信息,但是真实数据可能是比较零散的,英语不好,不知道怎么表达,没有问。之后需要找相关资料看一下测地线距离怎么计算。
总结,一天的暑期学校还是学到挺多东西的,开阔了眼界,也找到自己的不足。