一.数据抓取
方式:
1.埋点:是针对特定用户行为或事件进行捕获,处理和发送的相关技术及其实施过程
- 如何规划数据埋点
- 业务需求拆解,转化为数据需求
- 定义数据口径和指标统计方式
- 各类事件的分类和聚合(事件类型,页面位置..)
- 确定指标的数值类型,计数方式和记录规则
- 4W1H模型来选择数据
- 数据埋点的分类
- 点击事件(交互事件)
- 曝光事件
- 页面停留时间
案例:阅享好时光
1.业务拆解
促销活动(用户转化)
页面访问
领券
查看商品
购买商品
新人礼包(拉新,留存)
2.埋点选择
who
- 用户的唯一标识
- 登录用户,非登录用户
- 会员,非会员
- 活跃用户,非活跃用户
what
- 三个优惠券的点击事件
- 三个优惠券成功领取
- 。。。。
when
- 客户端事件
where
- 活动页面
how
设备,网络,操作系统等
2.爬虫:利用代码模拟人的行为去各个网站抓取数据
3.程序应用接口(API):连接各种软件系统,为了能在各系统之间共享数据而开放的技术接口管道。
二.数据清洗
1.缺失值处理:
根据数据信息(前后数据,其它信息)补全
特殊值,平均值,统计学模型补全
删除缺失值数据
2.数据格式内容的一致性处理
时间,日期,字符,格式
数据错位
3.逻辑错误数据处理
去重
去除不合理值
三.数据分析
1.描述性分析(发生了什么)
描述某项事物的特性,需要准确,完善甚至是实时的数据
描述性分析是通过计算数据的集中性特征(平均值和中位数)和波动性特征(标准差值)以了解数据的基本情况。因此在研究中经常是首先进行描述性分析,在此基础上再进行深入的分析
描述性统计还可用于查看数据是否有异常情况(最小值或最大值查看),比如数据中出现-2,-3等异常情况
描述性分析也可以通过峰度和偏度用于判断数据正态性情况
2.诊断性分析(为什么会发生)
在对描述性数据进行评估时,诊断分析工具将使分析师能够深入到细分的数据,从而隔离出问题的根本原因
诊断性分析是基于描述性分析之上的,诊断分析的目标是了解事情发生的原因。通过诊断分析,可以深入挖掘问题根源,识别依赖关系,找出影响因子。各种分析方法,可以知道问题是怎么发生的,这个过程依赖于我们对业务的了解程度,另外也要多和业务人员进行头脑风暴,只要是可能相关的,都纳入考虑,也可以基于现有特征构造新特征,至于是否相关可在后面的分析中进行验证。
案例:为什么6月份京东电商平台的订单量激增?从哪些角度去分析?需要哪些数据?
1.从流量,广告/开发新的渠道/
2.从转化率,针对页面,设备进行优化,是否有爆款产品,是否有新的产品
3.预测性分析(将会发生什么)
对数据特征和变量的关系进行测试,基于过去的数据对未来进行预测
4.规范性分析(需要做什么)
规范模型利用对发生的事情的理解,为什么发生了这种情况以及各种“可能发生的”分析,以帮助用户确定才去的最佳行动方案