Shepherd1701-CSDN博客

原创 ch6 用户行为数据驱动增长实战

ch6 用户行为数据驱动增长实战在前面五章的铺垫过后，这一章列举了四个案例。不同案例在业务对象，行业等属性上都有所区别，与前文基于用户行为数据的数据分析方法论相互论证，在不同的用户群体和行业之间，各个案例的介绍，是对前文的补充，同时可以对各个实例进行比对，迁移至其他业务中。第一个例子欧冶云商，其显著特征是B2B平台，欧冶云商首先锁定了钢厂使其主力用户，为钢厂赋能。显然，这里B端用户其实是广义的“用户”，其行为也是由具体的个人来实现。“小欧帮买”主要借助A/B测试，对页面以及流程进行了优化，而关于搜索优化

2022-01-25 21:23:54 326

原创 ch5 数据应用

ch5 数据应用A/B测试上个月刚好看过胖里分享巡山猫的AB测试公众号推文，两部分可以互相补充。七个步骤建立A/B测试的闭环第一步：A/B测试策略制定使用ICE模型打分，E(effort)指实现上线测试的策略所需的成本。将三个所有备选策略，通过多人根据三个因子打分，选择分数最高的几个进行A/B测试。本书提供了ICE打分模型。第二步：测试目标（评估指标）选择选择最直接的指标，比如两个海报的点击率，当然，同时也要关注核心业务目标，比如，转化率预估实验样本和试验周期：书中提供的样本计算

2022-01-24 21:58:31 1754

原创 ch4 数据分析

ch4 数据分析一、业务导向的数据分析整体思路常见痛点容易陷入细节，忽略全局会使用看数工具，但数据分析不成体系结果数据难以归因优化靠职业敏感度，而不是科学的数据分析系统方法：用户流转地图–场景化–数据分析模型用户流转地图定位20大通用场景，用10大数据分析模型进行分析二、用户流转地图全域–全局–局部全域流转地图基于公司战略，通过准确的业务定位于行业发展现状描绘全域流转地图；全局流转地图根据产品策略分为三大板块：站外渠道（用于检测流量分发、识别渠道异常）、平台流转和

2022-01-20 15:48:59 2025

原创 ch3 数据采集

ch3 数据采集一、数据采集常见的问题前期业务沟通不明确业务人员没有和技术人员明确数据采集时需要注意的细节问题采集时机和口径对不齐采集点没有统一管理版本迭代无法发现数据变化二、用户行为数据采集方式：有埋点和无埋点埋点和无埋点其实我目前的工作中只接触过埋点，无埋点主要指前端通过SDK等直接收集数据。适合无埋点的情况（”探索式数据场景“）业务属性弱，交互属性强需求及时性强，要快速落地得出结论数据使用周期短，不需要长期监控相对于准确性，更关注整体的趋势变化

2022-01-18 19:02:32 1213

原创 ch2 数据规划

ch2 数据规划数据规划基于用户行为数据，规划指标体系数据规划常见问题问题一：不知道该看什么数据想看数据，却没有数据缺少导向结果的数据依据过度关注结果性数据，过程性数据往往被忽略数据没有治理没有统一数据口径，没有建立规范的数据标准。“有数据但不能用”数据目标未对齐各部门数据要与公司战略对齐如何进行数据规划OSM模型+UJM模型+场景化指标体系规划的三大思路仍然是OSM模型+UJM模型+场景化OSM模型step1：选定Objec

2022-01-16 18:44:33 691

原创 ch1 走进用户行为数据分析

ch1 走进用户行为数据分析第一章从商业进化的角度认识用户行为数据的重要性，帮助读者了解什么是用户行为数据及其发挥怎样的价值一、商业的进化一切向用户靠拢。用户行为数据，既是消费者心思的代言人，又是连接消费行为的关键。旧品牌：原料-制造-销售有明确分工是旧品牌显著的产业特点。精细化分工极大地提升了上中下游各个环节的生产效率，实现生产效能最大化。平台品牌：掌控用户数据率先变革的是渠道环节。平台品牌直接连接消费者，逐渐代替传统渠道而成为巨无霸，并且绑定各种旧品牌使其无法脱离。我国在搜索引擎、

2022-01-15 09:25:45 129

转载【2021.05--集成学习（下）-Task15】蒸汽预测案例

本次 DataWhale 第二十五期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning导入包import warningswarnings.filterwarnings("ignore")import matplotlib.pyplot as pltimport seaborn as sns# 模型import pandas as pd

2021-05-23 21:30:29 223

转载【2021.05--集成学习（下）-Task14】幸福感预测案例

本次 DataWhale 第二十五期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningimport osimport time import pandas as pdimport numpy as npimport seaborn as snsfrom sklearn.linear_model import LogisticRegressio

2021-05-18 18:39:38 383

转载【2021.05--集成学习（下）-Task13】Stacking简单实践

本次 DataWhale 第二十五期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning上一次的任务中简单实践了blending，这一次任务将学习集成学习的最后一部分——stacking。具体原理可参见链接：https://www.cnblogs.com/Christina-Notebook/p/10063146.html# 载入数据from skl

2021-05-11 10:15:41 229 1

转载【2021.05--集成学习（下）-Task12】blending简单实践

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning在上一期的组队学习中介绍了Bagging和Boosting，现在简单学习下Stacking的方法，这个方法原理上没有那么依赖抽样的原理，理解上也相对较为容易，相关的原理介绍可以参考教程文档或者链接：https://blog.csdn.net/sinat_3582197

2021-05-10 17:16:34 111

转载【2021.04--集成学习（中）-Task11】XGBoost与LightGBM

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning本次学习的任务是最常使用的模型之一——XGBoost,这个模型是在GDBT的基础上进行了工程上的一些优化，对模型及进行了一下推导上的理解，比如，用泰勒函数逼近损失函数，最佳分裂点的寻找等。补充参考文章有：XGBoost超详细推导：https://cloud.ten

2021-04-26 18:17:06 556

转载【2021.04--集成学习（中）-Task10】梯度提升树

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning这一次的任务可以看作提升方法的下半部分，相较于李航老师的《统计学习方法》，跳过了AdaBoost算法的训练误差分析部分,同时补充了梯度提升树的案例（非常赞）。在书中的误差分析部分，可以知道训练误差可以被Zm{Z}_mZm控制住，同时,结合向前分步算法与AdaBoos

2021-04-23 12:21:15 172

转载【2021.04--集成学习（中）-Task09】Boosting和AdaBoost的简单学习

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning在上一次task中简单了解了bagging后，这一次对boosting进行简单的了解。这一次的组织提供的教程应该参考了李航的《统计学习方法》中第八章“提升方法”。书中首先引入了概率近似正确（PAC）学习的框架，同时也给出结论：强可学习与弱可学习是等价。这样一来，通过发

2021-04-19 17:31:47 128

转载【2021.04--集成学习（中）-Task08】bagging介绍

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning首先我们理解下boostrap，这是一种抽样思想，他的核心思路如下图：bootstrap在小样本时效果很好，可以通过自身从重抽样估计真实分布。在bootstrap的基础上，在弱学习器的“准确性”和“多样性”上进行有侧重的关注:个体学习器间存在强依赖关系、必须串行生

2021-04-16 11:23:11 160

转载【2021.03--集成学习（上）-Task07】投票法的原理和案例分析

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning在上一期的学习过程中，安排了部分基础模型的学习，为提升预测精度，可以进行模型集成，常见的思想有bagging、boosting和stacking。这一次任务先学习结合策略中的投票法。投票法是一种遵循少数服从多数原则的集成学习模型，通过多个模型的集成降低方差，从而提高

2021-04-15 00:48:23 171

转载【2021.03--集成学习（上）-Task06】评估模型的性能并调参

(4) 评估模型的性能并调参:更详细的可以查看萌弟大佬的知乎：https://zhuanlan.zhihu.com/p/140040705import pandas as pdimport numpy as npfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns

2021-03-29 19:44:32 131

转载【2021.03--集成学习（上）-Task05】使用sklearn构建完整的分类项目

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：[https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning](https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning)本次Task的任务是从回归问题过渡到分类的问题，使用大名鼎鼎的鸢尾花数据集。对于该数

2021-03-28 00:58:22 106

转载【2021.03--集成学习（上）-Task04】对模型超参数进行调优

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：[https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning](https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning)Step5 对模型超参数进行调优(调参)在上一个任务中学习了方差和偏差理论，他是站

2021-03-24 10:28:10 150

转载【2021.03--集成学习（上）-Task03】模型优化

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning优化基础模型(a)训练均方误差和测试均方误差在我们训练模型的时候，如果一味地提高对训练数据的预测能力，往往会出现模型的复杂度高于真实模型的情况，且在未知数据上预测得很差的现象，即为过拟合。比如说，任意n个点可以使用 n-1 次曲线进行拟合，这时的模型预测能力并

2021-03-23 00:38:53 273

转载【2021.03--集成学习（上）】使用 sklearn 构建完整的机器学习项目流程

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning2 使用 sklearn 构建完整的机器学习项目流程一般来说，一个完整的机器学习项目分为以下步骤：明确项目任务：回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。2.1 使用 sk

2021-03-19 00:49:11 253

原创【2021.03--集成学习（上）】机器学习的三大主要任务

本次 DataWhale 第二十三期组队学习，其开源内容的链接为：https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning1.导论1.机器学习的一个重要的目标就是利用数学模型来理解数据，发现数据中的规律，用作数据的分析和预测。2.数据通常由一组向量组成，这组向量中的每个向量都是一个样本，同时每个样本包含特征，但不一定包含因变量。根据有无因变量，可以将机器学习分为有监督学习和无监督学习

2021-03-15 21:30:26 208 1

Shepard_的博客