自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(90)
  • 收藏
  • 关注

原创 #史上#最容易#图文理解#Xgboost

增益计算:然后我们将这个增益与年龄的拆分增益进行比较。由于年龄是一个连续变量,找到不同拆分的过程有些复杂。首先,我们根据年龄的升序排列数据集的行,然后计算相邻年龄值的平均值。现在我们使用这四个平均值作为阈值来拆分残差,并计算每个拆分的增益。第一个拆分使用年龄 < 23.5。对于这个拆分,我们以与硕士学位相似的方式计算相似度分数和增益。然后用同样的方法计算剩余的年龄拆分:在所有的硕士学位拆分和四个年龄拆分中,“是否有硕士学位“拆分具有最大的增益值,因此我们将其作为我们的初始拆分。

2024-07-18 14:58:27 214

原创 关于正负样本不均衡对树模型feature importance的影响

在不平衡的数据集中,模型可能会偏向于频繁选择那些能够区分大量负样本的特征,因为这样可以在每次分裂时最大化信息增益或减少不纯度。:某些特征可能只在少数类(正样本)中提供重要信息,但在不平衡数据集上训练的模型可能不会充分利用这些特征,因为它们对整体的信息增益贡献较小。:模型可能高估那些在负样本中具有区分力的特征的重要性,而低估那些在正样本中重要的特征,即使后者对于正确的分类同样关键。在处理特征重要性时,重要的是要意识到不平衡数据集的潜在影响,并采取适当的步骤来确保模型的公正性和有效性。

2024-07-03 13:20:05 147

原创 代码杂谈 之 pyspark如何做相似度计算

在 PySpark 中,计算 DataFrame 两列向量的差可以通过使用 UDF(用户自定义函数)和 Vector 类型完成。这里有一个示例,展示了如何使用 PySpark 的。首先,确保你已经安装了 PySpark 并且正确设置了 SparkSession。

2024-06-05 17:03:13 497

原创 关于抽样检验的案例来说明95%置信区间

关于抽样检验的案例说明95置信区间

2024-06-05 10:41:45 911

原创 树模型 vs 线性模型: 对稀疏特征的敏感度

稀疏特征的敏感度在线性模型和树模型中的表现?

2024-05-13 09:42:15 274

原创 Tips:对于树模型,新增了一个feature,metric提升了不少,但是该feature的特征重要性不高,如何解释这种现象?

为什么新增特征,精度提升,但其重要性并不高?

2024-04-25 10:49:24 247

原创 我的创作纪念日

技术在不断更迭,代码敲得再多也赶不上IT时代的脚步,回眼看看大概只有收获了友情和亲情吧。1.CSDN终于达到3K粉,虽然粉丝不怎么发言。现实:疯狂开会/业务撕B联调/改需求/非必要加班。2.工资终于涨薪,虽然涨幅跟不上房租涨价。理想:喝咖啡/调参数/闲聊/朝九晚五。现实:大环境不好,不毕业就不错了。疫情三年,没失去就不错了。想到啥写啥,没有方向哈~

2023-11-07 12:57:28 152

原创 工作繁忙 + 想法枯竭 = 许久未更

Hi 各位关注我许久的粉丝们 or 新来的朋友,距离我上次更新已经过去了3个多月,之前我基本都是按月更的形式来发新文,但最近因为工作上的原因,再加上想法枯竭(自身的懒惰),许久没发过文章了。上的问题,我来收集并针对这些问题,写一些文章来解决大家的疑惑。这次我想以征集问题的形式,大家可以给我评论或者私信一些关于。PS:求求大家来做我的缪斯,555~

2023-09-11 15:05:27 218 2

原创 AB test 之 广告投放(二)

广告投放A/B的坑?

2023-06-19 14:14:25 412

原创 机器学习偏差-遭遇、识别与解决

机器学习在实际应用中面临着各种偏差问题,包括采样偏差、曝光偏差、流行偏差、非响应偏差和算法偏差等。本文将详细介绍这些偏差问题的遭遇场景,并提供识别方法和解决方法,以帮助读者更好地理解和处理这些偏差问题,从而提升机器学习模型的质量和鲁棒性。

2023-05-30 10:18:31 899

原创 简述-关于Kmeans轮廓系数随着聚类个数的增加后减少的问题

Kmeans寻找最佳簇类个数难点

2023-05-15 17:33:18 1156 1

原创 欧氏距离 VS 余弦距离

xx场景应该用欧氏距离还是余弦距离?有啥区别?

2023-03-22 17:50:10 2870

转载 反思 - 技术懒惰陷阱

是否在遇到技术瓶颈时变得懒惰?

2023-02-28 10:39:10 90

原创 AB test 之 广告投放

A/B TEST

2023-02-22 14:57:28 1130

原创 机器学习之避坑指南

机器学习入坑指南

2023-02-08 11:11:53 375

原创 用户画像洞察分类模型 - 前端页面展示

如何实现用户交互的前端页面千人千面?算法告诉你答案

2022-11-26 12:18:50 1344

原创 1024心愿

1024 心愿单

2022-10-24 11:30:07 92

原创 机器学习 之 客户分群案例

随着信息爆炸的时代来临。企业的用户量级和个人信息也呈指数型增长。难以管理用户关系难以了解不同用户群的特点竞争市场越来越激烈盲目营销的成本越来越大接下来通过一个真实历史交易数据集,通过LTV(客户生命周期价值)统计分析和聚类的方法分析不同用户群的特点,使得业务能够精准营销,从而降低营销成本。提示:以下是本篇文章正文内容,下面案例可供参考以上的客户分群角度主要是通过用户的历史交易信息RFM进行搭建分析。

2022-08-24 11:43:49 1345

原创 因果推断 之 初介绍 + 案例分析

因果推断

2022-08-05 17:30:40 2528 1

转载 三大集成学习之万金油 - Catboost

Catboost是何方神仙?

2022-07-04 15:51:41 566

原创 如何解释模型预测?常用4种可解释性分析方法~

#模型可解释性

2022-06-24 11:34:23 5481 2

原创 训练集(离线)与测试集(上线)效果差距很大怎么办?

相信各位童鞋在跑模型的时候时不时会遇到一个尴尬的现象,就是你在训练集或者验证集的模型效果好到令人发指,一时间以为“哼~就这?🤨游戏结束”,结果当你在测试集或者上线后发现真的就游戏结束了,指标低的没眼看。本人还是一个算法菜鸟时就遇到过这种情况,以致我后面看到指标上到80以上的模型都发怵…🙄下面我会为大家列举一些常见的原因和解决方法,给予大家一点思路参考。比如,离线特征的计算过程一般是使用SQL语言在大数据平台上完成。这样就存在相同的逻辑需要实现两次,而且可能是不同的人来实现,如果不仔细测试,出现不一致的

2022-06-01 18:09:52 5776 2

原创 机器学习基础-模型调参

模型调参大多数据科学家或算法工程师会在模型调参上面花费很多时间,时间的花费和你模型的参数成正比关系,所以,我们的模型想在一个数据集上获得一个好的结果是一个非常花费时间的过程。一般来讲,大家在模型调参之初,都会有官方模型设定的一系列默认超参数,它会给予你一个不错的初始点,然后在其上面慢慢地作调整。另一方面,我们可以通过读取论文,看看大神面对类似问题会使用哪些范围的超参数。在每次调整过一个超参数后,你需要重新训练一下你的模型,观察它在你的验证集有什么或坏或好的变化。之所以这样操作,是因为你可以从中知道每

2022-01-03 11:57:40 2583 1

原创 机器学习基础-Boosting

Boosting所谓Boosting,它的主要思想是说将多个弱模型组合在一起,从而形成一个比较强的模型。他的主要目的是为了降低数据拟合的偏差。需要注意的是,相较于之前提到的bagging,这里的组合是串行组合,而不是bagging的并行组合;Boosting降低的是偏差,而Bagging降低的是方差。(具体可以参考下图) 具体点来说,当处于时间i步时,我会训练我的第i个弱模型hih_ihi​,紧接着,我们会根据模型hih_ihi​所得到的误差ϵt\epsilon_{t}ϵt​,再把数据重新采

2021-12-25 16:38:58 968 1

原创 机器学习基础-Stacking

StackingStacking是通过多个基学习器集成学习从而降低了方差。这里跟Bagging的思想有点类似,但是还是有点小不一样,因为我们的基学习器不仅仅仅限于一颗颗单独的树模型,而是多个不同类别的模型,如随机森林,GBDT,MLP等。对于输入,Stacking和Bagging一样,同样的数据输入进来,然后每个模型都在原始的数据上进行训练。Bagging因为有Bootstrap的存在,所以每个基模型都是在不同采样的数据集上做训练;而对于Stacking来说,是在同一份数据集训练不一样的模型。对

2021-12-18 11:06:44 2477

原创 CNN之绘画风格迁移-附源码地址

原图:

2021-12-07 16:36:11 1350 1

原创 RS推荐系统-DSSM双塔模型

DSSM语义召回DSSM是一种基于深度神经网络的语义建模方法,这是由微软发表的一篇关于Query和Doc的相似度计算模型的论文提出。该模型的结构主要由三部分组成(如下图) 输入层输入层主要负责将Query和Doc的数据转换成embedding向量表达,方法通常有TFIDF,One-Hot等。原论文针对英文输入提出了一种叫做Word hashing的特殊embedding方法来降低字典规模。表示层表示层主要是将初始的embedding向量,经过深度学习的方法映射得到Query和Doc的新的em

2021-11-23 11:45:43 718

原创 机器学习基础-方差 & 偏差

偏差&方差在统计学里面有两个衡量模型的重要指标,分别是偏差Bias 和 方差Variance。偏差:表示每次模型学习到的数据跟真实数据之间的差距。方差:表示每次模型学习到的数据之间的差距。以下我们通过以下几幅图来讲解这两个指标的含义。 首先我们给定一个模型,训练5次,每次的结果分布我们这里表示为上图的黑色五角星。如果5次的结果都在我们可容忍的结果范围内(上图的圆圈中),那么就说明结果的偏差bias比较低(如第1个圆圈,第3个圆圈);如果结果数据大多脱离了真实数据的范围,则其偏差比

2021-11-17 16:24:49 1445

原创 日常-工作上的那点事儿

从年中开始,在一个流量预测的项目上辗转了多月,最近也快临近上线了。这么多月以来,没少碰壁,这次码字主要想总结一些坑,避免以后再次遇到还会掉在同一个坑里。。。自己的问题?如果你发现预测的指标相较于你的以往的测试或者在训练集上变得出奇的差,不要下意识就慌着去怀疑自己的代码效果是不是没有那么好。当然,首先第一步还是看看自己的代码里面是不是有bug,比如是否有些代码临时被注释了,变量是否传错了,又或者设定了错误的时间日期(今天预测昨天)等等。。。对于自己的代码还是比较熟悉的,所以能够很快的找出其中的“bug”

2021-11-12 12:44:54 348

原创 机器学习基础-时间序列之模型策略

所谓时间序列模型就是利用过去一段时间的序列信息去预测未来一天或多天的信息。通常对于时间序列的预测策略都是单步预测,时间序列预测描述了预测下一个时间步长的观测值。如下图所示,某航空公司的客运流量。 time passengers0 1949-01 1121 1949-02 1182 1949-03 1323 1949-04 1294 1949-05 1215

2021-11-08 11:50:20 1714

原创 机器学习基础-循环神经网络RNN

Recurrent networks继多层感知机面世后,在语言模型方面诞生了RNN模型。该模型所做的事情其实很简单:输入:句子中前面出现过的词输出:预测下一个新的词是什么比如说:输入:Hello输出:预测==>World简而言之,就是在已有的一条时序信息中,预测下一个时刻的信息是什么。当然,我们也可以通过MLP来做这件事情,即通过输入已有的语言信息,把所有词元进行one-hot处理,每个词元(样本)就有得到一个输出,在下一个词元(样本)又会得到另外一个输出。如下图所示~

2021-11-04 15:46:28 152

原创 机器学习基础-多层感知机

Neural Networks对于一些传统机器学习模型,需要我们手动完成一些特征工程,从而让模型更清楚地学习到数据的信息。而对于神经网络而言,它就是把原来手工提取特征工程的过程变成了一个深度网络,从而不断地拟合原数据。Tips:神经网络往往对数据量有比较大的要求,因为神经网络并不会有先验知识,它需要通过学习大量的数据,伴随着梯度下降和模型收敛,这样才能获得一个较好的结果。可以选择不同的架构来学习特征数据,常见有:MLP/CNN/RNN/Transformer等等。Linear-Methods

2021-10-27 16:30:48 627

原创 日常-关于读到知乎的一篇回答《在做算法工程师的道路上,你掌握了什么概念或技术使你感觉自我提升突飞猛进?》

Answer by “金瀛若愚”反馈的闭环一. 反馈的闭环在一个研究任务中,我首先尝试了方法A,没搞定,于是改用方法B。组里大哥问:为什么改方法B。我说A没效果,或许B能work。大哥继续问:为什么A不work。我说或许A不适合这个问题?大哥说:当你有一个尝试,你一定要知道它为什么work以及为什么不work。每次不work了你就换另一个方法,那另一个方法就能work吗?这不是科研,是赌博,是瞎试。你只有知道为什么一个方法有效或不有效,何时有效何时无效,你才能增进对这个问题的理解,然后基于此提出有价值的

2021-10-22 14:42:44 279

原创 机器学习基础-关于matplotlib的中文字符显示问题

在画图之前输入以下代码即可显示中文标题or标签import matplotlib.pyplot as pltplt.rcParams['font.family']='Microsoft YaHei' #显示中文标签plt.style.use ('ggplot') #设定绘图风格

2021-10-22 11:46:51 175

原创 机器学习基础-关于matplotlib的动态图显示操作

动态显示曲线图#动态显示曲线图%matplotlib inlinefrom IPython import displayimport time#循环每个数据点datafor i in range(len(data)): #画出当前循环位置的曲线图(如下是画出训练集和验证集的损失曲线图) plt.plot(loss_train_ls[:i],label = 'Train') plt.plot(loss_val_ls[:i],label = 'Validation') #每

2021-10-21 15:00:17 447

原创 机器学习基础篇-机器学习模型前瞻-part1

Type of machine learning - 机器学习类别TypeIntroductionSupervised Learning监督学习,即在有label的前提下训练模型并预测Semi-Supervised Learning半监督学习,同时在有label和无label的数据之间进行训练并预测Unsupervised Learning无监督学习,在无label的前提下训练模型并预测Reinforcement强化学习,与实际环境进行交互式训练并旨在最大化奖

2021-10-20 15:05:11 90

原创 机器学习基础-特征工程

Capture 1对于机器学习来说,每个模型都比较喜欢定义比较好的数据源。在深度学习浪潮之前,基本都是传统机器学习模型作为AI界的主导地位,比如SVM,Linear Regression等等,模型的选择并不多,所以对于一个问题,我们更加注重说把特征工程作为整个workflow里面最重要的部分,即把原始的数据源转换成不同模型喜欢的数据形式,从而拟合出更好的效果。而对于深度学习里面的神经网络来说,同样是一个数据集,并不需要手动去make特征工程,它只需要通过不同的线性层+非线性层不断地去训练拟合我们的目标值

2021-10-15 16:30:20 150

原创 机器学习基础篇-数据转换

Capture 1紧接着数据清洗那一篇文章,下个环节就是数据的转换,先让我们看一下机器学习的work flow数据的采集数据标注+数据清洗数据转换特征工程机器学习Capture 2数据需要被转换成合适机器学习的形式,当然,这其中包括数据清洗+特征工程,我们需要针对不同的变量形式进行不同地transform,主要包含以下几种形式:针对结构化数据。Normalization for Real Value Columnsmethodprinciple归一化,将数值归

2021-10-11 16:26:03 820

原创 机器学习基础篇-数据清洗

Capture 1在机器学习的工作流中,数据清洗环节尤为重要。接下来首先让我们看一下数据预处理的流程图。总的来说,主要包含下面三大块:收集数据标注数据提升数据质量Capture 2Data Errors所谓数据错误,就是你收集到的数据和实际的数据之间存在不一致。数据实际上是存在的,但是在数据表里是missing了数据的极值超出其所属的范围,例如房价不能小于0,但是在数据表却存在负数。虽然数据存在存在错误无可避免,但是一个好的机器学习模型能够容忍这些错误的存在,同样能够训练+收

2021-10-07 14:37:37 1707

原创 机器学习基础篇-集成学习

什么是集成学习集成学习是传统机器学习的基础上运用了一个重要思想:将多个弱分类器按照某种方法组合在一起,形成一个强分类器。(三个臭皮匠赛过诸葛亮)Bagging:把数据集通过有放回的抽样,划分为多个数据集,然后分别训练多个模型。针对分类问题,按照少数服从多数的原则进行投票,针对回归问题,求多个预测结果的平均值。Stacking:通常是不同的模型,而且每个分类器都用了全部的训练数据,得到预测结果y1,y2,...,yny_1,y_2,...,y_ny1​,y2​,...,yn​,然后在训练一个分

2021-08-24 10:41:38 349

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除