(注:本文为小报童精选文章。已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费)
万字长文,助力你用 AI 提升科研效率。
2024 年 4 月 14 日,应武汉大学信息管理学院的邀请,我和北京大学步一老师给几千名学员(其中正式报名超过千人)做了一次数据分析与可视化工作坊。我负责的是上午场,题目为《运用 AI 工具进行数据分析与可视化 》。具体报道,请 查看武大信息管理学院的新闻。
有很多读者表示之前未能第一时间得到消息,没来得及报名,错过这次活动颇感遗憾。于是我把工作坊的内容做成了这篇图文教程,还包含了全部的练习材料(图文和视频)。为了学到技能,注意不能光阅读,还是得上手练习。
工作坊主体上分为三个部分,分别是讲解篇、练习篇和展望篇。下面咱们逐一展开。
第一部分 讲解篇
这一部分讲解相关背景知识,让你了解数据分析与可视化自动化工具和方法发展脉络、AI 究竟能帮助我们做什么,以及我们该如何做。
数据分析与可视化的目标
我们先来看看数据分析的目标。首先,这个目标并不是为了炫酷。虽然现在有很多长图、PDF 或高清图片格式的数据可视化效果看起来很漂亮,但这不是我们的目标。我们的目标是帮助用户获取洞察力,对于数据的洞察力。
可视化与我们人类演化的过程密不可分。在很长一段时间里,人类并不是坐在电脑前敲键盘看屏幕,而是在各种地理环境中与各种猎物和捕猎者发生互动。残酷的生存压力导致我们对图形图像的敏感程度远超数字。
(当然了,上面这幅图,也是 AI 辅助绘制的。)
当你看到一堆会计报表或原始数据堆积如山时,你大概会感到烦躁。确实有人看到统计报表感觉它活了起来,特别兴奋,但大部分人不具备这样的演化特征,所以我们中的大多数很难有效处理和消化原始数据。
怎么办呢?
我们可以采用各种可视化图表,目标是让用户一目了然地感受到数据所代表的含义。
比如,学生期中、期末考试成绩呈现一条上扬曲线,家长就会很高兴;如果曲线急速下跌,家长可能心情就不够爽朗了。这个例子虽然简单,却可以说明数据可视化有助于人们了解趋势和规律。
学术研究
在学术研究中,数据分析与可视化更可以有效帮助我们展现证据,与他人沟通我们的发现。
我来给你举个切身的经历。我当年上硕士研究生时,学的是计算机应用专业。当时我们实验室的一项重要工作是进行网络协议改进效果仿真。仿真不能只运行一轮结果就汇报,而会有许多轮次,这其中还有各种参数的变化。二维图形不足以展现全部这些变化,所以当时做数据可视化的一个重点是展现多轮仿真效果的三维模型。
我当时用的工具是 MatLab。当时我为了更好地画一个 3D 图形,真是绞尽脑汁,曾经花了整整一个寒假琢磨怎么改进。下面是我在 2007 年 4 月提交给导师的最终结果,有若干张图,我把它做成了一个动图演示给你。
你可以看到我当时做的这些三维图形从各个角度展现一组数据的变化。你可以一目了然地看到参数和最终结果(吞吐率)之间的关系。
从今天的眼光看例子里的这张图,你会觉得它很一般,很粗糙,谈不上多美观。但是在当时,这是我们实验室的核心技能之一。为了避免这项技能随着我的毕业而失传,在导师的强烈要求下,我当时还在实验室范围内做了专门的知识技能分享。之所以要分享,是因为要学会这些内容并不容易,Matlab 使用起来还是有门槛的。
好消息是,这些年数据分析与可视化门槛在逐渐降低,这一方面是由技术进步带来的,另一方面也是普通用户的需求被开发者关注到了。
数据分析的方式演进
数据分析的方式是不断的在演进的。我在这里分三个阶段给你讲。分别为全手动、半自动和全自动。