数据分析师,简单切词为“数据”,“分析”,“师”。因此,获取必要的数据,分析这些数据,然后从数据中发现一些问题提出自己的想法,这就是一个数据分析师的基本工作内容。
自己做了两年数据分析师,真的觉得古语说的对,“功夫在诗外”。一名好的数据分析师,接到一个需求时,会更多考虑这个需求本身,包括要做的东西是什么,为什么这么做,还可以怎么做,怎么去做,关键点是什么。都想清楚了,才去动手做。建议任何一名数据分析人员,都能在做以前把问题想清楚,确认清楚,不要等到做完才发现自己做错了,那样会很浪费时间。自己这方面曾犯过N多错误。
下面简单谈下做一名数据分析师要经历的几个步骤:
(1)获取数据
获取相关的数据,是数据分析的前提。每个企业,都有自己的一套存储机制。比如淘宝,所有的数据都在HADOOP上,很多数据都要经过HADOOP,hive来获取。因此,基础的SQL语言是必须的。具备基本SQL基础,再学习下HIVE的细节的语法,基本就可以通过HIVE拿到很多数据了。每个需求明确以后,都要根据需要,把相关的数据获取到,做基础数据。
(2)数据处理
获取数据,把数据处理成自己想要的东西,是一个关键点。很多时候,有了数据不是完成,而是分析的开始。数据分析师最重要的工作就是把数据根据需求处理好,只有数据跟需求结合起来,才能发挥数据的价值,看到需求的问题和本质所在。如果连数据都没处理好,何谈从数据中发现问题呢?
对于数据的处理,有两种形式:
a>如果初步提取的数据是在LINUX上,建议学一门脚本语言,比如AWK,或者PYTHON。如果掌握一门脚本语言,不仅可以在LINUX系统上写很多自动脚本来运行,会大大节省自己的时间,而且可以通过脚本语言把基础数据处理成自己想要的任何形式,直接可以使用。
b>如果数据没有在LINUX上,那可以download,然后通过其他统计软件来处理。个人推荐SAS或者R语言。SAS的强大,不必多说。没有SAS解决不了的问题,而且SAS也有SQL,处理起来也方便。R语言最近也很火,而且免费,packages越来越多,画图也简单,类似Matlab。如果前期数据处理的好,后续只需要通过R或者SAS画一些图就可以了。在数据分析师的世界,按照价值排序,图>表>文字。
(3)分析数据
这里的数据,包括图,表,数字几种。分析数据是整个分析的关键,也考验分析师的水平。好的分析师,可以根据趋势图,对比数据,敏锐的观察到很多问题。可是这需要对业务,对数据有很深的了解,才会把数据和业务结合起来,发挥两者的价值,完成需求。所以,一名数据分析师,要把更多的时间放在了解业务上。只有业务了解,细节清楚,才会明白业务变动可能引起的数据指标的变动,也会在后续的需求分析中,更快更全面的解决其他人提出的问题。可能很多人都很困惑,怎么才能“敏锐”的观察到数据的变动呢,我为什么怎么也发现不了问题呢?个人感觉可以通过以下方法,来慢慢锻炼:
a>多问几个为什么。比如,看到一些指标,就想想这些指标代表什么,用自己的话可以怎么理解;看到一条趋势线有波动,就想想为啥子某个点异常波动呢?多问问问题,自己就会加深对业务和指标关联的敏感性。
b>借鉴统计方法。统计学中,都会有一些横纵对比,趋势分析等等。对比,在分析师数据时候,是一个很重要的东西。任何东西,也因为了对比,才会有高有低,有长有短。另外,分布,也是一个很好的东西。分布的变化,就意味着变动,变动的发展结果,就能知道业务发展的好坏。再次,占比啊等等,都是很简单但是实用的方法。
c>向师兄请教。有的时候,一个问题,自己沉迷其中不能自拔,旁观者一句话,就能点清自己的思路。当自己分析数据不得要领的时候,就多请教师兄。
(4)展示成果
分析数据以后,解决需求的问题,就需要汇总分析的成果,给到其他人。可能分析的过程,拿到的数据有很多,需要全部给其他人么?怎么去罗列这些数据呢?可能很多人都犯难。有一次,一个同学来问我,她有很多数据,但是就是不知道该怎么组织,才能证明自己的结论是对的。其实,作为一名数据分析师,就是根据数据,把问题解决,提出一两条参考建议给到需求方就OK了。因此,回复的结果简单明了就好。如果是回复一封邮件,可以这样来做:
其实,做一名数据分析师,真的不容易,不仅要懂业务,还要会技术,更要敏锐发现问题,总结,还要提出建议。自己干了N多工作,最后还不一定能得到一个好的结果。做了两年数据分析师,自己的重心也在慢慢的转移。从刚开始技术学习,到后面技术+业务的结合,到现在自己又钻到业务,研究业务,慢慢发现:一名好的数据分析师,是一个好的产品的规划者和行业的领跑者。a>邮件正文,先写主要结论,即根据数据和需求,有什么结论。这样大家第一眼就能抓到最关键的东西,可能不需要看那些详细的数据;
b>如果觉得有必要,就在下面再把分析过程写进去;
c>如果图和图表不多,可以添加到邮件第三部分。毕竟放上数据,任何同学有疑问,可以随时去看数据。如果图和图表实在太多,就放到附件!
简单的写了一点,乱七八糟,没有逻辑了。感觉有很多东西要写,但是开始写了,就觉得不能更自由的表达。以后再逐渐的补充吧。