数据分析,数据是核心,所以看看到底什么是数据。
二、数据
1、数据是什么?数据能干啥?
数据,DATA,其实就是指未经过处理的原始记录,比如说商品数据就有商品名称、商品价格、商品销售额等等,还比如用户数据,用户名,用户收藏,用户点赞等
常用的数据体系维度有:
性别、年龄、地理位置、行业、购买力、互动频率、最近互动时间…
常见数据应用方向:
个性化推荐、价格歧视、A/B test、用户生命周期管理、产品生命周期管理...
2、数据的特性
1)变异性
数据表现出来的值不会是很一致的,数据的离散度不一样,可能会很分散。
用于反应数据变异性的常用指标有:
标准差、方差、极差
2)规律性
大量数据经常也会表现出一定的规律性,比如说数据呈现正态分布就很常见。
3)客观性
分析数据要客观,不能凭一组或者一种数据就下定一个结论,不能一叶障目,不同数据能得到不同的结论,所以要综合分析,并且分析的时候要控制变量。
3、优秀数据分析师的特点
1)对业务的理解
数据分析是要为业务服务的,不深刻理解业务也就没意义。
举些常见的业务。
电商业务:常见数据有 GMV、复购率、客单价、UV、PV、UV、转化率等
广告业务:单次点击竞价、点击率、有效访问率等
产品业务:PV、UV、日活月活、用户存留、ARPU等
供应链业务:缺货率、安全库存、滞销率、备货量等
营销业务:市场占有率、ROI、头部市场、腰部市场、长尾市场等
2)对工具的使用
软件工具:Excel、Python、R、spss
分析方法:描述性分析、预测性分析、仿真分析等
数学模型:分布模型、回归模型、分类模型等
3)数据描述表达
数据分析完最终要给对象看或者讲的,对象比如是领导、同事、客户等。
图表可视化:比如帕累托分析看二八分布
业务逻辑表达:例如广告投放营销用漏斗转化模型看展示量、点击量、访问量、咨询量、成交量
业务决策表达:例如多维度广告数据分析的四象限分析法。
4、数据分析的四个步骤
1)数据抓取
埋点:在应用特定流程中收集信息
爬虫:按照规则自动抓取,比如商品价格、评价、名称、销量等等前端能看到的。
API:通过一些平台提供的接口获取数据
2)数据清洗
抓取的原始数据不一定能直接来用,要进行质量分析。
缺失值分析:排除空值、遗漏值
异常值分析:分析一些明显不太对的数据,箱型图可以检测异常值
一致性分析:分析一些有矛盾的,多数据源的数据
3)数据分析
可视化;一般简单的Excel也能用,比如表格转饼图、线形图等
诊断型分析:用一些数学、运筹学方法来分析,线性回归之类的
仿真法:可以使用随机数的仿真方法来解决业务问题。
4)业务决策
常见的业务决策方向:
描述性统计 ->用户画像 ->针对性运营
诊断性分析 ->ROI评估 ->企业资源配置优化
预测性分析 -> 未来业绩评估 -> 活动策划/人员工作排期
仿真模拟 ->不同情况风险评估 ->供应链资源规划
5、Excel和Python
这俩最常用。
Excel的优势:
1)对单数据源(单表格)数据分析非常灵活、方便
2)操作简单、分析方法可复制性强,对业务方指导性强
Excel的劣势:
1)对多数据源(多表格)数据分析时比较麻烦、低效
2)对大数据量数据源分析时容易发生卡顿、报错
Python的优势:
1)可读性文字编写语言,学习难度较小
2)数据可视化、数据分析的工具包丰富、分析效率高