一位老司机总结的数据分析入门指南

本文关注点在于“如何入门数据分析”,部分内容和前文数据分析师职业漫谈有所重叠(前文关注点在于数据分析师的职业发展线)。

数据分析需要的能力可以分成专业能力和通用能力两部分,本文主要关注的是专业能力的学习,包括业务知识、数据处理、工具使用3部分。


1. 业务知识

为啥先谈业务知识?因为数据分析是为了解决业务问题,如果你不了解业务背景,就不知道数据分析的目标,甚至无法衡量数据分析的效果。在做某个数据分析需求前,首先要问的应该是——想通过数据分析解决什么问题?——而这个问题必定是和业务有关的,也就是说分析是对应具体的业务场景的。

如何获取业务知识,通常有3种途径:

  • 看书,直接学习他人总结的业务经验;

  • 问人,请教和你合作的业务同事或者同行;

  • 做需求,这里指业务方找分析师做的需求,这也是实际工作中得到的经验。

如果要从获得的经验中“加工”出属于自己的业务知识,还有3个步骤:

  • 解析业务模式,这一层级相对宏观,用来对行业建立比较概括的认识;

  • 拆分产品环节,把产品比作链条,搞清楚每一个环节都发生了什么事情,哪些事情是需要数据分析来支撑的;

  • 业务分析模型,即了解常用的产品、运营、用户分析的模型;


1.1 解析业务模式

可以用两个模型来拆解业务模式:

“人货场”:你的用户是谁(人)以及他们具有什么样的特征,你售卖的商品是什么(货)以及产品上如何盈利,用户的交易场景有哪些、用户通过哪些渠道可以获取到你的产品(场)。“人货场”模型脱胎于零售行业,但对于其他行业的业务同样适用。

640?wx_fmt=png

商业模式画布:除了上面的人(客户群体)、货(价值服务)、场(渠道通路)外,还考虑成本结构、核心资源、收入来源、关键业务、重要合作这些因素。

640?wx_fmt=png

关于这部分的内容更多可以参考:

  • 《数据化管理》,黄成明;

  • 《商业模式新生代》,亚历山大·奥斯特瓦德




1.2 拆分业务环节

可以从两条线来拆分业务环节:

  • 买方(顾客)角度,一个新客走完一次完整的交易需要经过哪些环节;

  • 卖方(商家)角度,产品从制作->上架->销售->配送等关键环节有哪些细分的问题。

上述这些环节都对应着一些数据指标或者可以分析的数据专题,比如:

  • 用户在转化过程中为什么流失?

  • 如何对商品定价?

  • 商品的选品和备货策略?

  • 商品要促销的时候,对谁促销?促销哪些商品?可以选哪些促销活动?怎么评估活动效果等。

关于这部分的内容可以参考:

  • 精益数据分析,Alistair Croll & Benjamin Yoskovitz

  • 活用数据,陈哲




1.3 业务分析模型

关于核心分析思路可以分别参考产品、运营、用户3个视角:

产品分析:用户体验5层级

640?wx_fmt=png

产品分析核心关注点在于“转化”,反过来看,也就是用户为什么“流失”。用户对产品感到“不爽”,可能对应5个层级中的问题:

  • 战略层的问题,产品定位的需求可能是“伪”需求,比如先前火热的“O2O”模式;

  • 范围层的问题,需求存在,但是产品暂时没有提供相应的解决方案,比如早期部分笔记软件不支持MarkDown笔记或者网页剪藏等功能而被用户抛弃;

  • 结构层的问题,比如笔者试用BOSS直聘App时,发现必须先完善简历才能使用App功能,弃之;

  • 框架层的问题,比如腾讯视频对电影的导航对于笔者而言就不那么友好,相对来说爱奇艺则要好很多;

    640?wx_fmt=png

    注:腾讯视频的电影导航栏,第一次的时候笔者的反应是“不科学啊?怎么电影只有这几个分类?”后来才发现“电影片库”才是最全的分类

    640?wx_fmt=png

    注:爱奇艺的电影导航

  • 表现层的问题,比如用户填写信息错误时没有提示具体的错误信息,笔者甚至遇到过填写完页面的多个空格,然后点击“下一步”,结果页面提示某个项目填写有误,顺带还把所有填写的内容都清空了(简直丧心病狂);



运营分析:AARRR模型


用户生命周期的5个关键环节:获客->激活->留存->收入->传播

640?wx_fmt=jpeg

https://chatbotslife.com/must-have-kpis-for-chat-bots-b75b9efddfb9

用户行为:AIDAS模型

640?wx_fmt=png

更多可以参考:

  • 用户体验要素,Jesse James Garrett

  • 增长黑客,Sean Ellis & Morgan Brown

  • 如何让他买:改变消费者行为的十大策略,Adam Ferrier

  • 游戏化实战,Yu-kai Chou

  • 上瘾,Nir Eyal & Ryan Hoover




2. 数据处理

在这个维度上需要掌握的知识分为两部分:

  • 数据处理流程,比如采集、清洗、特征(变量)衍生、建模、评估等环节需要怎么操作。

  • 指标计算规则,从输入(input)到输出(output)之间的计算逻辑是啥,这涉及数学公式以及计算逻辑(和编程有点沾边了)。


2.1 数据处理流程

宏观上的数据操作步骤可以参考下(大图请横屏浏览)

640?wx_fmt=png

注:后台回复CRISPDM,可下载高清PDF文件

这里隆重推荐一本书《IBM SPSS 数据分析与挖掘实战案例精粹》(张文彤&钟云飞),本书就是按上图中的框架来讲解数据分析案例的。分析思路是精髓,书中的操作软件是SPSS,也可以用其他分析软件来操作配套的数据。



另外需要说明下“数据获取”部分,数据获取不仅仅是从数据库把数据捞出来(一般叫数据提取)。数据获取可能会涉及到网络爬虫、产品埋点、用户调研等方法(更多可以参考数据获取)。


2.2 指标计算规则

行业内常用指标的计算规则是需要整理并记住的,比如运营相关的指标可以参考https://www.zhihu.com/question/19903629.

要计算一个指标,你可以写公式,也可以写代码。

计算规则会设计到两类“算法”:

  • 数学“算法”,也就是数学知识。数学算法的表现形式通常是数学公式,一般来说概率统计是最常用的,其他可能还涉及线性代数、机器学习、优化理论等;

  • 计算机算法,通常和数据结构相关联,比如查找、排序、图、树之类的算法,其表现形式是一段“伪代码”或者过计算过程;

如果是入门数学分析,则通常只需要关注数学方面的算法(计算方法)就行。要让数据指标有业务意义,还需要将数学指标映射到业务指标上去,常见的业务指标背后的数学含义都是非常简单的,所以不要怕自己的数学基础太烂。


3. 工具使用

工具可以分为编程和不编程两类:

  • 不编程(相对),Excel/SPSS、Tableau/PowerBI等;

  • 要编程,SQL、R\Python\SAS等;

工具是用来实现分析,也可以提升效率(君子善假于物)。学习工具的时候要注意不要掉进工具思维的陷阱,问题和解决方案的“适配性”是首要考虑的因素。在实际业务中,解决问题是首要目标,工具是否“高大上”基本没人关心(甚至结果是否酷炫也没人会在意);

通常建议必备3种工具:

  • SQL,不管是MSSQL, MySQL, Oracle, Hive等,基本语法大同小异。数据分析中遇到的80%以上的数据都是结构化数据,而结构化数据基本都会用到SQL来进行基础统计。SQL学习的重点可以关注聚合函数和窗口函数(http://lxw1234.com/search/窗口函数);

  • Excel,这应该是世界上应用最广泛的数据分析软件了(不信可以搜一下相关的书籍),另外Excel的使用门槛也很低(会用的人很多)。如果数据量不大(比如<100W行)而要进行一般统计的话,Excel都能搞定,而且还可以做成可以交互的动态图表。Excel主要学习点是函数公式、数据透视表以及作图;

  • Python,你估计听过“Life is short, use Python”(人生苦短,我用Python)——免费软件,语法简单,工具包多,可以覆盖绝大部分的分析场景——这几个理由就足够了。Python常用于分析的工具包有:Numpy, Pandas, scipy, scikit-learn。

如果想在数据分析这条道路上走得更远,编程是必不可少的,毕竟现在编程都已经纳入中小学的课程了。

编程就是将上面提到的“计算规则”用编程语言来实现,除了计算规则之外,你还应该理解“变量->语句->模块->函数->工具包”基本上是每种程序和核心思路。

学习编程的时候需要注意几点:

  • 建立知识体系,可以参考数据分析常用工具中对Python的知识总结;

  • 勤动手,多练习,代码写了上几万行和只写过几百行的人的差距不仅仅是在熟练度方面,在代码的理解程度上也差很多的;

  • 不要只“抄”代码,这样写出来的代码有“形”无“神”,一定要搞清楚代码背后的逻辑,记住逻辑比记住代码更重要。笔者初学代码时就曾掉入此坑,别人的代码复制/粘贴一运行,一看跑出结果来很兴奋(以为自己能写这段代码了),其实事后一点印象都没有。

更多关于数据分析工具可以参考:数据分析常用工具

推荐书籍:

  • SQL必知必会,Ben Forta

  • 谁说菜鸟不会数据分析,张文霖,刘夏璐,狄松 著

  • Python基础教程,Magnus Lie Hetland

  • 利用Python进行数据分析,Wes McKinney



本文提到的能力的优先级:业务知识>数据处理>工具使用

商业上是以业务问题为主导的,数据分析的核心是帮助业务“降本增效”,这可以看做是数据分析的“道”,数据处理中涉及到的数学和计算机知识则是“术”,最后用于实现的工具是“器”,切记不要颠倒方向!



关于数据分析思维的培养

推荐学习材料:

  • Model thinking, Scott E. Page, https://www.coursera.org/learn/model-thinking,课程在B站有翻译版,https://www.bilibili.com/video/av9994383,作者还出了一本书The Model Thinker

  • 算法之美,Brian Christian & Tom Griffiths,原书Algorithms to Live By;

  • 决战大数据,车品觉;

  • 超级思维,Aaron Santos,构建一个目标数据的预估思维是很有必要的;

  • 解决问题的三大思考工具,吉泽准特;

  • 深度案例思考法,井上达彦;




关于数据分析的学习建议

  • 看书,建议按专题去看(以点带面),也可以按专题去搜索相应的知乎、公众号文章(通常来说这两个平台的文章质量好些);

  • 动手,跟着做一下练习题,代码要自己先想后敲(照着抄很难留下深刻印象),然后再对比别人给到的解决方案;

  • 交流,和同行交流,和业务方交流,可以参与一些数据分析相关的会议或者线下活动;

  • 输出,记笔记,写文章,可以试试“费曼技巧”。


相关文章

数据分析常用工具

数据分析常用思维

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值