目录
1 观测
1.1 观察:采集数据、储存数据、展示数据
①采集数据
解析系统日志
埋点获取新数据
基于系统日志新增数据的过程,称为”埋点“。
埋点是分析师获取新数据的主要方式,也是最可控最可靠的方式。
通过传感器采集
爬虫
解析别人埋点获取的数据,爬虫相当于偷袭别人的劳动成果。
正规企业不会把爬虫作为获取数据的主要手段。
API application programming interface 应用程序接口
按照规则提供数据,只要告诉他要什么数据,能提供的都可以提供。
api获取需要填写代码, 只需要获取代码的地址和参数。
②存储数据:各种类型的数据库
数据采集结束后需要存储到数据库里。(❌下载之后存到本地文件夹❌)
常用的数据库种类:
数据工程师,对数据进行清洗、计算等等,得到大家需要的数据。
③储存数据:连接数据库取数
获取数据后要展示数据,常用报表、图表与表盘。
④展示数据:可视化高效传达信息(又叫 数据可视化)
数据库帮助自动提取数据,展示最新的可视化结果(需要excel和tabelai)
1.2 测量和分析:设定标准、发现异常、研究关系
分析数据目的?在商业场景下:一、及时发现异常,事情没有按照预期发展,需要及时查找问题数据、指导解决问题;二、找到数据之间的因果关系,数据指导业务越做越好。
数据是客观统一的。有统一的认知才能有共同的目标。
在经典咨询场景,数据标准被称为“benchmark”,进行分析判断的重要标准。
要研究异常背后形成的原因和运行的机制,比如便利贴胶水。
研究关系:可视化查看相关性;建模推导相关性。
2 实验
2.1 提出假设,然后验证假设
提出一个合理的假设,对疑问进行解释。
恶劣天气确实会导致外卖商家差评率飙升。虽然显而易见,但是要牢记:
所有未经实事数据验证的想法都是假设。
在不知道哪个版本更好的情况下,设计A/B测试获取数据。(如:在产品没有完全上线之前,把产品最主要的特征做出来,一小部分的用户验证。 )
~如何在业务只有少量数据时设计数据实验?(样本不够)
~如何在无法同时测试两个版本时比较数据?(业务场景无法同时做两个版本,产品A/B测试)
基于实验验证问题解决的方法和规律。
3 如何应用数据创造价值
3.1 基于数据反馈不断迭代产品和业务策略
流程:借助bi平台可以自动提取数据知识,让业务看见数据发现异常、研究关系。
3.2 基于数据训练算法,让机器自动化地完成工作
做业务分析一定明确业务目标。
然后拆解目标。
业务每个阶段要做成什么样
(反脆弱性要很强)
流程拆解法
二分法
象限拆解法
杜邦分析法:基本思想是将企业净资产收益率逐级分解为多项财务比率乘积,这样有助于深入分析比较企业经营业绩。由于这种分析方法最早由美国杜邦公司使用,故名杜邦分析法。
AARRR:数据分析面试:AARRR 模型
PEST:数据分析八大模型:详解PEST模型
-
政策(Political):政府对行业监管政策
-
经济(Economic):宏观经济形势
-
社会(Social):社会发展趋势
-
技术(Technological):新技术出现
RFM:数据分析八大模型:详解RFM模型
-
R Recency:最近一次消费至今的时间
-
F Frequency:一定时间内重复消费频率
-
M:一定时间内累计消费金额
-
RFM的缺点是很明显的:它仅仅考虑了用户的行为数量,没有考虑用户在干什么。比如用RFM考察用户消费,就少了一个关键内容:用户买的是啥。
5W1H5W1H,告诉你如何做数据分析
把数据应用于业务:
把数据应用于算法:
设定目标是算法的前提条件。
让算法推荐用户喜欢看的视频(❌算法让用户开心❌)
算法是否创造了业务价值并不清楚,只能看到算法的完成率、准确率、错误率。
一家优秀的互联网公司必要条件:训练算法让机器自动化完成工作。基于用户的行为数据,为用户提供感兴趣的内容。谁的算法更加精准,谁的用户更多。
应用数据更好的训练算法,是未来职场内的必备技能。
要基于数据优化业务或基于数据优化算法,有自己的无可替代性。