概览
数据链路
- 数据采集
- 浏览(页面)日志, 交互日志, 启动关闭日志…
- 客户端埋点日志
- 简单的行为事件event最细粒度
- 行为细查应用
- user_action, 由行为event埋点抽象而来, ua 和 event可能1对多,多对多。
- 客服端展现,客户端展现的信息, show.
- APP启动关闭日志
- 简单的行为事件event最细粒度
- 服务端展现,记录推荐给用户的信息,send.
- 客户端埋点日志
- 实时埋点,如实时推荐中对用户行文的上报
- 非实时埋点
- 浏览(页面)日志, 交互日志, 启动关闭日志…
- 日活/新增
- 基本概念
- Session: lauch - terminate. launch打开app或切回前台;terminate, ios切后台/android在后台停留30s;
- 日活口径:后台launch不算日活;只有launch或只有terminate也算,如跨天的session; count(distinct(launch, terminate)).
- App 驻留时长随terminate日志上报.
- 新增口径:设备安装 - 设备注册 - 设备激活(首次被用户打开使用,有前台启动), 新增口径,某个设备App在某个设备上第一次安装并激活。
- FQA: 新增不在日活情况:作弊、远程弹窗等…
- 基本概念
- 数据流
- 事件转换, 分流
- 数据同步
- 批量(全量), 增量
- 数据仓库
- 全量, 增量
- 维度, 事实
- 指标
- OLAP存储和引擎
- Presto
- SparkSQL
- Hive
- ClickHouse
- ck在字节跳动的优化和最佳实践
- 数据套件
- 调度平台
- 数据治理平台
- 数据地图
- 数据指标平台
- Nuwa //TODO
- 数据质量&监控
- QueryEngine
- 数据服务
- BI报表
- 数据出口(API(HTTP, RPC, DSL))
- 数据门户
- 数据产品/应用
UG 模型
-
RARRA模型: 留存是产品的灵魂.
- Retention
- Activation
- Revenue
- Referal
- Acquision
-
AARRR海盗模型
-
ADIMA?
-
TODO
产品和运营
- 场景和核心指标
- 北极星指标
- OMTM
- 产品101
- 运营101
- 内容平台
- 社交平台
- 广告(Revenue)
AB实验
要点: 科学决策(统计学支撑), 精耕细作(小流量实验, 量化指标, 让数据说话)
- 场景
- UI
- 算法, 模型和策略的验证
- 实验类型
- 服务端实验
- 客户端实验
- Web端实验
- 实验的原理
- 分流服务
-
流量分层(100%线上全流量), 层内流量互斥, 层间流量正交. (有相关性的实验必须在一层内开).
-
每层的流量, 利用哈希hash(uid:layer)%1000分桶, 每桶千分之一的流量. 如果一个实验需要2%的流量, 则实验组分配10个桶, 对照组分配10个桶, 分组仍然利用哈希hash(uid:flight)%2划分. 分流服务保证用户分组的稳定性.
-
分流服务针对某个用户的响应信息, vid(ab_version)/vid list(一个用户可能同时命中不同层的多个实验)和该用户应对应的实验配置. vid信息是进入AB实验时给用户赋予的一个“身份信息”。
-
注意: 对于开屏广告等时间延迟要求比较高的场景, 可能直接本地分流, 不去访问集中的分流服务.
-
- 假设
- H0: 原假设, 新策略没有效果; H1: 备选假设, 新策略有效果.
- 结果评估
- 第一类错误: 采用了H0, 但实际H0是错误的, 即"取伪"错误.
- 关注显著性P-value<0.05则统计显著, 但仍有P-value的概率犯错.
- 第二类错误: 未采用了H0, 但实际H0是正确的, 即"弃真"错误.
- 关注检验效力power, 通常统计效力power>0.8, 控制第二类犯错概率<(1-power)%.
- MDE
- Minimum Detectable Effect (MDE),最小可检测单位,即检验灵敏度,是指在当前条件下,我们所关心的指标,在实验中可检测出来的最小提升值。这个提升值越小,也就意味着检验越灵敏。MDE是基于多天累计数据计算所得,仅「多天累计」的指标可以查看MDE.
- 指标diff的灵敏度MDE, 如果在当前检验效率下,预期提升的幅度值lift<MDE 则需要调低灵敏度, 否则可能需要检查实验周期和样本是否足够.
- 置信区间
- 置信区间反映的是在抽样用户群上得出的指标在全体用户上泛化能力.
- 例子: 一个提升转化率的策略, 在小流量抽样的实验中,得到的提升均值是5%, 在95%置信度下的置信区间[-5%, 10%]. 那么当实际在全量用户推广该策略时, 转化率提升幅度有95%的概率落在[-5%, 10%]中.
- 第一类错误: 采用了H0, 但实际H0是错误的, 即"取伪"错误.
- 样本量和实验周期计算 TODO
- 分流服务
- 指标体系
- 核心指标
- user 命中实验的用户数
- Impr/U 人均展现数
- Read/U 人均阅读数
- StayTime/U 人均停留时长
- RspLatency 用户从刷新到返回的平均延时
- 互动指标
- 人均点赞, 评论, 收藏, 转发等
- 核心指标
- 最佳实践案例
- AB系统核心实现
- AB数据链路
- 核心数据源: 实验进组ABLog表, 用户行为日志表EventLog
推荐
- 推荐的核心机制
- 推荐的数据链路
- 推荐算法
- 基于统计的算法: 协调过滤等
- 基于用户的UserCF
- 基于物品的ItemCF
- 基于机器学习的算法: 隐语义模型LFM等
- 基于统计的算法: 协调过滤等
- 推荐的核心指标
- 满意度, 难以定义. 一般看内容的被消费指标, 用户和内容的互动指标等.
- 准确率
- 覆盖率, 对冷门物品的推荐情况, 推荐覆盖的均匀性.
- 新颖性, 一般用用户活跃度/物品流行度来表征.
- 实时性