未明学院:从分析工具到职场应用,带你全方位了解数据分析

作者 | Z同学

未明学院优秀学员

1、数据分析学习

一般而言,学习数据分析的人群主要有两类目的。

一类是把它作为职业发展方向,之后从事相关的专业工作,比如量化投资研究员、数据分析师、算法工程师、大数据开发师、数据挖掘师等职业;

另一类是把它当做辅助手段进行其他种类的工作,常见的有会计类、咨询类、文书类、风控类等工作。

接下来的技能分支也主要按照这两个目的进行分类

2、数据分析工具

辅助类工具

① Tableau:

无论是否是以数据分析作为自己专业工作, 数据可视化在现在这个社会中都是很重要的一部分——漂亮的报表和简单明了的图像对报告自己的工作非常重要。

在我念硕士的时候, 做过一个关于美国枪支犯罪的小项目,主要的工具就是tableau, 图像最后按照地图呈现出来的效果非常漂亮。Tableau的内容非常丰富,不仅有直线图,冒泡图, 折线图, 饼图等常见的图形(或者他们的3D形式), 还有基于地图的航线规划,城市交通图等内容。Tableau强大的可视化功能可以让自己的报告增色很多。

这里分享一个包含漂亮的tableau案例的网页: https://www.jianshu.com/p/9ab3140062cf

② SPSS,SAS,Eviews:

SPSS、 SAS、 Eviews都提供了一些常见的统计模型(比如线性拟合,参数检验等)的可视化接口。

操作者不需要具体深入到模型的具体原理,而是可以简便地把这些模型当作一个黑箱,只需要弄懂其中输入输出的含义即可。

这会给一些不太擅长数理模型的工作者带来很棒的使用体验,并且可以让自己的一些预测报表得到基于历史数据的、有数理模型保证的数据结果的支撑。

要注意的是, SPSS在版本18将名字改成了PASW Statistics,SPSS社会软件包也从原来的重视化学生物医学等方面,变成了越来越重视商业分析。打包的数理模型让他成为了一个非常不错的预测类软件。

③ SQL:

某种意义上来讲,SQL是对非编程类班课出身的人最友好的编程语言,类似英文句子的编程语法可以让人很快上手,如最基础的SELECT SOMETHING FROM SOMETHING语句。

SQL的语法简单, 功能却并没有让人想象的那么匮乏(支持变量、定时等功能)。

另外, 良好的运行速度也可以让取数、查询、计算等数据类操作的过程变得非常令人愉快。

EXCEL:

很多没有深入了解该软件的人认为EXCEL是一项很基本的办公软件,并没有什么好挖掘的地方。

实际上,除了简单的画图和统计量功能之外,excel还有很多非常强大的功能。

从一些最简单的办公函数开始,到熟练掌握一些功能图表,再到数据透视表,再到录制宏,再到基于VBA实现某些自定义功能,Excel都能满足。

注意,宏和VBA的语法并不困难,它可以让以处理excel为主的相关工作(尤其是存在大量重复性工作的职业)从繁杂的体力劳动(按照一定逻辑反复重复操作数据)中彻底解放出来,实在是工作的加速器,生活的润滑油。

⑤ Xmind,Processon:

在我看来,数据分析一个很重要的部分就是结果的表达——良好的呈现效果可以让你的分享更容易被其他人和上级接受。

Xmind和Processon都有很强的可视化功能,我使用processon比较多。

Processon是一个免费的在线网站,我们可以在这个网站上建立画简图的空白文档,网站内有很多的常见图标(包括但不仅限于一些生活常见标志,常见几何图形,数据库常见图像, 流程图常见的符号等)可以自行拖动,按照自己想表达的意思进行组装。

专业工具

① R语言:

即使你对数学和统计里面那些不那么浅显易懂的数学知识深恶痛绝,你依旧不可否认,统计是数据分析很重要的一环。我们甚至可以直接认为现在流行的人工智能和机器学习是统计中一个美妙而富含实用性的分支。R作为统计专业必备的编程工具, 对所有需要专业从事数据分析类工作的人来说都是应该掌握的。

装上R-Studio之后, R语言的世界会变得非常美妙。友好的变量观测系统、可按块自由组合逻辑顺序的运行操作、强大的绘图功能、齐全的包,都让R显得极其优雅。实际上, 即使对于没有编程基础的人, R都是能够非常快入门的一个工具(一个礼拜左右)。

② Python:

Python因为简单的语法和人工智能中的重要角色而被人们熟知。相对于R而言,Python的包更多(当然也因此版本依赖问题会严重很多),函数更多,但他依旧非常简单。

大部分数据分析相关的工作,都离不开Python和R。

3、工作中的数据分析

01、处理报表类相关的工作: HR, 文书

我的表姐Y每天的工作都是和表格打交道, 每天要将得到的数据集(EXCEL格式)按一定的逻辑顺序进行函数的编写、表格的映射(数据透视表等)、画表——每天八小时的正常工作量中,大概要在这些重复性的操作上面耗费四个小时。

后来我给她做了几个简单的宏,用EXCEL的宏录制功能并按照顺序做下来即可。开始使用后, 她告诉我, 她每天的工作量中这个内容大概被压缩成了一小时, 每次只需要点击一下,或者更改一下参数,就完成了原来需要按流程重复的操作。

如果你的工作需要批量处理报表,其中包含大量重复的操作, 那么EXCEL中的宏功能会让你的生活变得非常快捷。

02、风控类工作

我的大学室友T的爸爸是一个非常顶级的投资人, 所以他的目标就是毕业后有相关的、更专业的职业技能。

T的大三实习是在景顺长安的量化风控类岗。他的实习项目是利用VBA做一个EXCEL的插件, 变成一个嵌入EXCEL软件的按钮, 每次只要对得到的数据按一下,即可得到这个数据对应的最低风险、最高风险、预期收益等指标。

正如我在1中说的一样, 和宏类似,VBA可以让Excel的功能变得非常强大。对于风险控制类的工作而言,上述的流程包括:①收集报表数据(或者其他的历史数据, 金融数据乃至市场数据); ②按照逻辑顺序和数理模型,得到最后的分析——这是一个比较私人化(不同人对风险的预估看法不同)而且可能经常重复的过程。

上述的这种独特性会让每个人的评估过程都不太一样,基于VBA,在EXCEL中给自己定制一个属于自己的分析按钮是非常棒的选择。 

03、咨询类工作

在浙大念数学本科的时候,我有一个一起做量化相关项目的队友S。S是学金融的,他之前在上海一个大型的咨询公司工作。咨询类工作强度大、成长高、薪水佳(当然,前提是进入比较好的公司),而且领域跨度可能会比较大。

举个例子,S在工作的三个月里面,刚进组的时候做的是一个医药类的项目,而后又做了一个化妆品的项目,最后走前的一小段时间跟了一个保险项目。

据他的描述来看,数据分析在咨询类工作中是非常重要的。他的工作最后需要给客户呈现的内容浓缩在一个PPT和一个word文件里面。里面包含了对应的数据搜集过程、数据分析结果和市场分析建议。

由此可见,快速地理解对应领域的数据特征,快速地利用一些已经掌握的基础模型(该工种时序模型较多)先给出一些可信的分析预测结果,对按时完成咨询工作至关重要。

以S做的保险类项目为例,相关的各类数据的表格可能有几十个,每个表格可能又会有两位数以上的列——如果你有比较好的数据分析能力,那么无论是excel的数据透视表,还是基于sql的并联查找和导出,快速的筛选、统计数据都会给做这些相关的项目带来很大的好处。

04、量化、数据分析师、算法工程师

这是三个比较偏向于技术岗位的工作,也是我比较熟悉的部分。

首先从数据分析师讲起,以tx的数据分析师为例,主要的工作就是sql取数,以及基于结果给出一个数据分析,而后给出一些业务的咨询意见。

我的同学H目前在tx实习,日常主要用的语言就是sql和py。一个在伯克利念硕士的同学这个暑假在Facebook当数据分析师(那边的职位名字是Data Scientist),前不久刚拿到了转正的名额。

对比来看,国外的数据分析师(即上述的数据科学家岗)更偏向于算法层面一点,需要掌握的内容可能更像是国内的算法工程师和数据分析师的融合;国内的数据分析师则对技术的要求低一点,更偏向于业务导向——即如何搜索出解决问题的数据并据此分析,给出业务咨询中数据层面的建议。

关于量化,大三的时候我在杭州实习了两个月,岗位是量化策略研发员,主要做的是基于HMM(隐马尔卡夫链)的策略开发方面。

按我浅薄的理解,主要的量化层面目前还是分成两类。

第一类仍然立足于技术面,即利用一些指标去设定条件(按洞察数据、总结条件、据此买卖这一流程)——其实就是金融市场中,技术面的自动化操作;另一类则是基于具体的算法进一步开发,而后基于预测的结果进行详细策略的研制,并给出最后的结果。

前者而言,我认为会更依赖于工作者对市场和一些具体指标的敏锐程度,具体的指标数据如何进行条件总结是工作的核心;后者而言,则更偏向于算法层面——比如我之前的工作,就是基于每天的开盘价和收盘价两个基础数据,直接用模型预测出之后的价格,所以此时策略的成功与否极大地关联于模型预测的精度。

关于算法工程师,数据分析主要集中在特征工程那一块里面。良好的模型效果不仅需要扎实的算法基础,还需要对数据特征进行很好的组合。

在比kaggle和数学建模比赛的时候,我就意识到了很多时候最决定成果高度的部分就是特征工程。

其中数据的预处理十分重要,包括且不仅限于:“最简单的标准化(normalization)和归一化处理”、“缺失值处理”、“数据的特征关联的探究(相关系数探究,如常见的皮尔逊系数与spearman系数)”、“数据的变形(常见的log变换,Z变换,类与数值的转换,热编码)”、“数据的特征选择(方差选择法,卡方检验等内容)”等等。

致力于做算法相关工作的同学,应该要把特征工程相关的底子打厚实。

总结

未明学院的Z同学从数据分析的工具,到数据分析在实际工作中的应用,给大家全方位展现了数据分析的世界。大家对数据分析是不是有了更深层的理解呢?

如果你有什么疑问和想法,欢迎在评论区留言,小明同学随时在线哦~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值