Mr.Wiggles-CSDN博客

原创详解在A/B Test中CUPED的作用

CUPED（Controlled Experiments Using Pre-Experiment Data）是一种用于提高在线实验（如A/B测试）效率的方法。它通过利用实验前的数据来减少实验结果的方差，从而提高实验的统计功效，使得在较小的样本量下也能检测到较小的效应。CUPED的核心思想是利用实验前的数据（即预实验数据）来构建一个协变量，这个协变量与实验结果相关。通过在实验结果中减去这个协变量的影响，可以减少实验结果的方差，从而提高实验的精度。下面通过一个具体的例子来说明CUPED的应用过程。假设你是一家

2025-02-27 10:17:07 1031

原创为什么Self-Attention要通过线性变换计算Q K V，背后的原理或直观解释是什么？

线性变换”是机器学习中针对数据常用的变换方式，通过线性变换可以将数据进行降维、解耦、筛选精炼等操作。而 Transformer 中的“线性变换”有着十分独特且重要的意义，它是导致 Multi-Head Attention 机制得以成功运行的根基。但是要彻底了解 Transformer 中独特的“线性变换”机制，你首先要彻底理解 Q、K、V 三矩阵与生成它们的三个线性变换矩阵WQWKWV之间的巧妙关系，让我们开始。。。。由浅入深，首先简要回顾一下 Q、K、V 三者之间的关系。

2025-02-12 10:25:50 717

原创 P值和置信区间的定义与联系

在统计学中，p值和置信区间都是用来评估假设检验结果的重要工具，但它们各自代表不同的概念，并且以不同的方式提供信息。

2024-11-18 10:49:01 1345

原创 #史上#最容易#图文理解#Xgboost

增益计算：然后我们将这个增益与年龄的拆分增益进行比较。由于年龄是一个连续变量，找到不同拆分的过程有些复杂。首先，我们根据年龄的升序排列数据集的行，然后计算相邻年龄值的平均值。现在我们使用这四个平均值作为阈值来拆分残差，并计算每个拆分的增益。第一个拆分使用年龄 < 23.5。对于这个拆分，我们以与硕士学位相似的方式计算相似度分数和增益。然后用同样的方法计算剩余的年龄拆分：在所有的硕士学位拆分和四个年龄拆分中，“是否有硕士学位“拆分具有最大的增益值，因此我们将其作为我们的初始拆分。

2024-07-18 14:58:27 666

原创关于正负样本不均衡对树模型feature importance的影响

在不平衡的数据集中，模型可能会偏向于频繁选择那些能够区分大量负样本的特征，因为这样可以在每次分裂时最大化信息增益或减少不纯度。：某些特征可能只在少数类（正样本）中提供重要信息，但在不平衡数据集上训练的模型可能不会充分利用这些特征，因为它们对整体的信息增益贡献较小。：模型可能高估那些在负样本中具有区分力的特征的重要性，而低估那些在正样本中重要的特征，即使后者对于正确的分类同样关键。在处理特征重要性时，重要的是要意识到不平衡数据集的潜在影响，并采取适当的步骤来确保模型的公正性和有效性。

2024-07-03 13:20:05 396

原创代码杂谈之 pyspark如何做相似度计算

在 PySpark 中，计算 DataFrame 两列向量的差可以通过使用 UDF（用户自定义函数）和 Vector 类型完成。这里有一个示例，展示了如何使用 PySpark 的。首先，确保你已经安装了 PySpark 并且正确设置了 SparkSession。

2024-06-05 17:03:13 665

原创关于抽样检验的案例来说明95%置信区间

关于抽样检验的案例说明95置信区间

2024-06-05 10:41:45 1856

原创树模型 vs 线性模型: 对稀疏特征的敏感度

稀疏特征的敏感度在线性模型和树模型中的表现？

2024-05-13 09:42:15 473

原创 Tips：对于树模型，新增了一个feature，metric提升了不少，但是该feature的特征重要性不高，如何解释这种现象？

为什么新增特征，精度提升，但其重要性并不高？

2024-04-25 10:49:24 329

原创我的创作纪念日

技术在不断更迭，代码敲得再多也赶不上IT时代的脚步，回眼看看大概只有收获了友情和亲情吧。1.CSDN终于达到3K粉，虽然粉丝不怎么发言。现实：疯狂开会/业务撕B联调/改需求/非必要加班。2.工资终于涨薪，虽然涨幅跟不上房租涨价。理想:喝咖啡/调参数/闲聊/朝九晚五。现实：大环境不好，不毕业就不错了。疫情三年，没失去就不错了。想到啥写啥，没有方向哈~

2023-11-07 12:57:28 182

原创工作繁忙 + 想法枯竭 = 许久未更

Hi 各位关注我许久的粉丝们 or 新来的朋友，距离我上次更新已经过去了3个多月，之前我基本都是按月更的形式来发新文，但最近因为工作上的原因，再加上想法枯竭（自身的懒惰），许久没发过文章了。上的问题，我来收集并针对这些问题，写一些文章来解决大家的疑惑。这次我想以征集问题的形式，大家可以给我评论或者私信一些关于。PS:求求大家来做我的缪斯，555~

2023-09-11 15:05:27 287 2

原创 AB test 之广告投放（二）

广告投放A/B的坑？

2023-06-19 14:14:25 647

原创机器学习偏差-遭遇、识别与解决

机器学习在实际应用中面临着各种偏差问题，包括采样偏差、曝光偏差、流行偏差、非响应偏差和算法偏差等。本文将详细介绍这些偏差问题的遭遇场景，并提供识别方法和解决方法，以帮助读者更好地理解和处理这些偏差问题，从而提升机器学习模型的质量和鲁棒性。

2023-05-30 10:18:31 1265

原创简述-关于Kmeans轮廓系数随着聚类个数的增加后减少的问题

Kmeans寻找最佳簇类个数难点

2023-05-15 17:33:18 1632

原创欧氏距离 VS 余弦距离

xx场景应该用欧氏距离还是余弦距离？有啥区别？

2023-03-22 17:50:10 3509

转载反思 - 技术懒惰陷阱

是否在遇到技术瓶颈时变得懒惰？

2023-02-28 10:39:10 151

原创 AB test 之广告投放

A/B TEST

2023-02-22 14:57:28 1492

原创机器学习之避坑指南

机器学习入坑指南

2023-02-08 11:11:53 453

原创用户画像洞察分类模型 - 前端页面展示

如何实现用户交互的前端页面千人千面？算法告诉你答案

2022-11-26 12:18:50 1646

原创 1024心愿

1024 心愿单

2022-10-24 11:30:07 136

原创机器学习之客户分群案例

随着信息爆炸的时代来临。企业的用户量级和个人信息也呈指数型增长。难以管理用户关系难以了解不同用户群的特点竞争市场越来越激烈盲目营销的成本越来越大接下来通过一个真实历史交易数据集，通过LTV（客户生命周期价值）统计分析和聚类的方法分析不同用户群的特点，使得业务能够精准营销，从而降低营销成本。提示：以下是本篇文章正文内容，下面案例可供参考以上的客户分群角度主要是通过用户的历史交易信息RFM进行搭建分析。

2022-08-24 11:43:49 1535

原创因果推断之初介绍 + 案例分析

因果推断

2022-08-05 17:30:40 3461 5

转载三大集成学习之万金油 - Catboost

Catboost是何方神仙？

2022-07-04 15:51:41 832

原创如何解释模型预测？常用4种可解释性分析方法~

#模型可解释性

2022-06-24 11:34:23 7431 4

原创训练集（离线）与测试集（上线）效果差距很大怎么办？

相信各位童鞋在跑模型的时候时不时会遇到一个尴尬的现象，就是你在训练集或者验证集的模型效果好到令人发指，一时间以为“哼~就这？🤨游戏结束”，结果当你在测试集或者上线后发现真的就游戏结束了，指标低的没眼看。本人还是一个算法菜鸟时就遇到过这种情况，以致我后面看到指标上到80以上的模型都发怵…🙄下面我会为大家列举一些常见的原因和解决方法，给予大家一点思路参考。比如，离线特征的计算过程一般是使用SQL语言在大数据平台上完成。这样就存在相同的逻辑需要实现两次，而且可能是不同的人来实现，如果不仔细测试，出现不一致的

2022-06-01 18:09:52 6520 2

原创机器学习基础-模型调参

模型调参大多数据科学家或算法工程师会在模型调参上面花费很多时间，时间的花费和你模型的参数成正比关系，所以，我们的模型想在一个数据集上获得一个好的结果是一个非常花费时间的过程。一般来讲，大家在模型调参之初，都会有官方模型设定的一系列默认超参数，它会给予你一个不错的初始点，然后在其上面慢慢地作调整。另一方面，我们可以通过读取论文，看看大神面对类似问题会使用哪些范围的超参数。在每次调整过一个超参数后，你需要重新训练一下你的模型，观察它在你的验证集有什么或坏或好的变化。之所以这样操作，是因为你可以从中知道每

2022-01-03 11:57:40 2734 1

原创机器学习基础-Boosting

Boosting所谓Boosting，它的主要思想是说将多个弱模型组合在一起，从而形成一个比较强的模型。他的主要目的是为了降低数据拟合的偏差。需要注意的是，相较于之前提到的bagging，这里的组合是串行组合，而不是bagging的并行组合；Boosting降低的是偏差，而Bagging降低的是方差。(具体可以参考下图) 具体点来说，当处于时间i步时，我会训练我的第i个弱模型hih_ihi，紧接着，我们会根据模型hih_ihi所得到的误差ϵt\epsilon_{t}ϵt，再把数据重新采

2021-12-25 16:38:58 1048 1

原创机器学习基础-Stacking

StackingStacking是通过多个基学习器集成学习从而降低了方差。这里跟Bagging的思想有点类似，但是还是有点小不一样，因为我们的基学习器不仅仅仅限于一颗颗单独的树模型，而是多个不同类别的模型，如随机森林，GBDT，MLP等。对于输入，Stacking和Bagging一样，同样的数据输入进来，然后每个模型都在原始的数据上进行训练。Bagging因为有Bootstrap的存在，所以每个基模型都是在不同采样的数据集上做训练；而对于Stacking来说，是在同一份数据集训练不一样的模型。对

2021-12-18 11:06:44 2601

原创 CNN之绘画风格迁移-附源码地址

原图：

2021-12-07 16:36:11 1405 1

原创 RS推荐系统-DSSM双塔模型

DSSM语义召回DSSM是一种基于深度神经网络的语义建模方法，这是由微软发表的一篇关于Query和Doc的相似度计算模型的论文提出。该模型的结构主要由三部分组成（如下图）输入层输入层主要负责将Query和Doc的数据转换成embedding向量表达，方法通常有TFIDF，One-Hot等。原论文针对英文输入提出了一种叫做Word hashing的特殊embedding方法来降低字典规模。表示层表示层主要是将初始的embedding向量，经过深度学习的方法映射得到Query和Doc的新的em

2021-11-23 11:45:43 840

原创机器学习基础-方差 & 偏差

偏差&方差在统计学里面有两个衡量模型的重要指标，分别是偏差Bias 和方差Variance。偏差：表示每次模型学习到的数据跟真实数据之间的差距。方差：表示每次模型学习到的数据之间的差距。以下我们通过以下几幅图来讲解这两个指标的含义。首先我们给定一个模型，训练5次，每次的结果分布我们这里表示为上图的黑色五角星。如果5次的结果都在我们可容忍的结果范围内（上图的圆圈中），那么就说明结果的偏差bias比较低（如第1个圆圈，第3个圆圈）；如果结果数据大多脱离了真实数据的范围，则其偏差比

2021-11-17 16:24:49 1586

原创日常-工作上的那点事儿

从年中开始，在一个流量预测的项目上辗转了多月，最近也快临近上线了。这么多月以来，没少碰壁，这次码字主要想总结一些坑，避免以后再次遇到还会掉在同一个坑里。。。自己的问题？如果你发现预测的指标相较于你的以往的测试或者在训练集上变得出奇的差，不要下意识就慌着去怀疑自己的代码效果是不是没有那么好。当然，首先第一步还是看看自己的代码里面是不是有bug，比如是否有些代码临时被注释了，变量是否传错了，又或者设定了错误的时间日期（今天预测昨天）等等。。。对于自己的代码还是比较熟悉的，所以能够很快的找出其中的“bug”

2021-11-12 12:44:54 394

原创机器学习基础-时间序列之模型策略

所谓时间序列模型就是利用过去一段时间的序列信息去预测未来一天或多天的信息。通常对于时间序列的预测策略都是单步预测，时间序列预测描述了预测下一个时间步长的观测值。如下图所示，某航空公司的客运流量。 time passengers0 1949-01 1121 1949-02 1182 1949-03 1323 1949-04 1294 1949-05 1215

2021-11-08 11:50:20 2017

原创机器学习基础-循环神经网络RNN

Recurrent networks继多层感知机面世后，在语言模型方面诞生了RNN模型。该模型所做的事情其实很简单：输入：句子中前面出现过的词输出：预测下一个新的词是什么比如说：输入：Hello输出：预测==>World简而言之，就是在已有的一条时序信息中，预测下一个时刻的信息是什么。当然，我们也可以通过MLP来做这件事情，即通过输入已有的语言信息，把所有词元进行one-hot处理，每个词元（样本）就有得到一个输出，在下一个词元（样本）又会得到另外一个输出。如下图所示~

2021-11-04 15:46:28 192

原创机器学习基础-多层感知机

Neural Networks对于一些传统机器学习模型，需要我们手动完成一些特征工程，从而让模型更清楚地学习到数据的信息。而对于神经网络而言，它就是把原来手工提取特征工程的过程变成了一个深度网络，从而不断地拟合原数据。Tips:神经网络往往对数据量有比较大的要求，因为神经网络并不会有先验知识，它需要通过学习大量的数据，伴随着梯度下降和模型收敛，这样才能获得一个较好的结果。可以选择不同的架构来学习特征数据，常见有：MLP/CNN/RNN/Transformer等等。Linear-Methods

2021-10-27 16:30:48 694

原创日常-关于读到知乎的一篇回答《在做算法工程师的道路上，你掌握了什么概念或技术使你感觉自我提升突飞猛进？》

Answer by “金瀛若愚”反馈的闭环一. 反馈的闭环在一个研究任务中，我首先尝试了方法A，没搞定，于是改用方法B。组里大哥问：为什么改方法B。我说A没效果，或许B能work。大哥继续问：为什么A不work。我说或许A不适合这个问题？大哥说：当你有一个尝试，你一定要知道它为什么work以及为什么不work。每次不work了你就换另一个方法，那另一个方法就能work吗？这不是科研，是赌博，是瞎试。你只有知道为什么一个方法有效或不有效，何时有效何时无效，你才能增进对这个问题的理解，然后基于此提出有价值的

2021-10-22 14:42:44 386

原创机器学习基础-关于matplotlib的中文字符显示问题

在画图之前输入以下代码即可显示中文标题or标签import matplotlib.pyplot as pltplt.rcParams['font.family']='Microsoft YaHei' #显示中文标签plt.style.use ('ggplot') #设定绘图风格

2021-10-22 11:46:51 235

原创机器学习基础-关于matplotlib的动态图显示操作

动态显示曲线图#动态显示曲线图%matplotlib inlinefrom IPython import displayimport time#循环每个数据点datafor i in range(len(data)): #画出当前循环位置的曲线图(如下是画出训练集和验证集的损失曲线图) plt.plot(loss_train_ls[:i],label = 'Train') plt.plot(loss_val_ls[:i],label = 'Validation') #每

2021-10-21 15:00:17 517

原创机器学习基础篇-机器学习模型前瞻-part1

Type of machine learning - 机器学习类别TypeIntroductionSupervised Learning监督学习，即在有label的前提下训练模型并预测Semi-Supervised Learning半监督学习，同时在有label和无label的数据之间进行训练并预测Unsupervised Learning无监督学习，在无label的前提下训练模型并预测Reinforcement强化学习，与实际环境进行交互式训练并旨在最大化奖

2021-10-20 15:05:11 139

原创机器学习基础-特征工程

Capture 1对于机器学习来说，每个模型都比较喜欢定义比较好的数据源。在深度学习浪潮之前，基本都是传统机器学习模型作为AI界的主导地位，比如SVM，Linear Regression等等，模型的选择并不多，所以对于一个问题，我们更加注重说把特征工程作为整个workflow里面最重要的部分，即把原始的数据源转换成不同模型喜欢的数据形式，从而拟合出更好的效果。而对于深度学习里面的神经网络来说，同样是一个数据集，并不需要手动去make特征工程，它只需要通过不同的线性层+非线性层不断地去训练拟合我们的目标值

2021-10-15 16:30:20 221

空空如也

空空如也