自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 【因果推断】优惠券政策对不同店铺的影响

本文使用了竞赛用的销售数据进行了销售额与优惠券政策的因果推断。实际上更多的是因果推断方法论的学习。对于优惠券政策而言,销售额很有可能并非是真正的干预目标,而且店铺是否要发现优惠券,也需要考量除了数据集以外的其他因素。而对于销售额的干预影响,很多公司都会做Uplift Model来衡量,笔者有空也会对此进行学习。

2024-07-07 21:57:32 962

原创 Kaggle线上零售 CRM分析(RFM+BG-NBD+生存分析+PySpark)

这个此在线零售数据集包含2009年12月1日至2011年12月9日期间的在线零售的所有交易。该公司主要销售独特的各种场合礼品。这家公司的许多客户都是批发商。本文将通过pyspark对数据进行导入与预处理,进行可视化分析并使用RFM、生存分析与BG-NBD模型进行对购买客户的各项分析。

2024-06-02 16:45:33 1056

原创 模型推导:BG/NBD(预测用户生命周期(CLV)模型)

CLV(Customer Lifetime Value)指的是客户生命周期价值,用以衡量客户在一段时间内对企业有多大的价值。企业对每个用户的流失与否、在未来时间是否会再次购买,还会再购买多少次才会流失等问题感兴趣,本文所推导的BG/NBD模型就是用来解决这样一系列问题的。

2024-05-12 17:16:47 310

原创 Pyspark+关联规则 Kaggle购物篮分析案例

零售商期望能够利用过去的零售数据在自己的行业中进行探索,并为客户提供有关商品集的建议,这样就能提高客户参与度、改善客户体验并识别客户行为。本文将通过pyspark对数据进行导入与预处理,进行可视化分析并使用spark自带的机器学习库做关联规则学习,挖掘不同商品之间是否存在关联关系。

2024-05-01 20:48:21 1483 3

原创 时间序列模型:lag-Llama

这是一个借鉴了Llama模型结构的单变量概率时间预测模型,使用了海量的数据集进行预训练,用户可以根据实际的任务进行模型微调或者直接进行零样本推理。模型从六个领域搜集了27个时序数据,根据不同的频数分为了7965个数据集进行预训练,之后又从其他数据集上进行零样本学习以及微调,使用CRPS评估的结果如图所示,Lag-Llama微调后的平均结果更好,仅2.786左右。

2024-04-14 22:46:17 1152

原创 【hugging-face模型微调】利用预训练模型生成“黑暗之魂”式物品描述

项目地址:https://github.com/thornbsj/DS_PAIR游戏“黑暗之魂”系列中一直以其隐晦的剧情以及其“碎片化叙事”著称。除去一般游戏中采用的环境叙事以及NPC的语言叙事外,还会将部分剧情背景通过物品描述的形式糅合进游戏中。通过“魂式文风”的物品描述来推测背景故事也是玩家们乐此不疲的一件事。本文就希望能够借助于预训练好的语言模型,输入物品描述,让模型输出一个相关的背景故事。

2024-03-31 21:23:23 1066

原创 论文代码阅读及部分复现:Deep Lasso

通常真是数据集中很少回包含“对于预测完全没有帮助的高斯噪声特征”,但是以往在评估特征选择算法时,会手动造数据并包含由高斯分布生成的“纯噪音特征”,不仅和事实大相径庭,而且这也使得特征选择算法的任务变得比真实情况更加“简单”了;所以作者基于真实数据集构造特征选择的评估基准,并加入了随机噪音特征、损坏特征和作为特征工程原型的二阶特征(有可能是冗余特征),通过对特征选择后的数据下游模型(MLP和FT-Transformer)效能评估来评估特征选择的效果。

2024-02-12 17:13:41 1240

原创 论文代码阅读及部分复现:Revisiting Deep Learning Models for Tabular Data

现有的关于表格数据做深度学习的模型层出不穷,但是作者认为,由于在真实使用模型时有着不同的基准以及实验场合,这些提出的模型没有被很好地比较。因此,论文作者在论文中对各类模型进行了综述,并且自身提出了一个对Transformer作简单改进的模型:FT-Transformer,最终将ResNet-like类模型、Transformer-like类模型以及其他MLP模型在不同的数据集上训练、对比效果,最终确定了一个较好的衡量针对表格数据的深度学习模型的标准(bennchmark)。

2024-02-02 00:38:03 1429

原创 机器学习论文及代码浅读:LassoNet

论文提出了一个在神经网络中能够做特征提取的结构:LassoNet,其核心思想,是使用一个“Skip层”的结构来控制要进入后面隐层的特征数量,从而实现特征的稀疏化。尽管原理看上去很简单,但是针对其进行反向传播的优化算法(Warm Start和Hier-Prox算法),实际上有着相当的数学最优化原理。这篇论文实际上结合了原本线性模型种的L1正则化与ResNet的思路,可以说有着借鉴价值。

2023-12-28 17:01:14 1514

原创 游戏中的数学:魔塔中的全蓝宝石转换理论

魔塔是一款经典的策略益智游戏,自问世以来一直受部分玩家的追捧,各个魔塔爱好者不仅将这个玩法作为基准推陈出新造出了一系列的同人创作并发展出了自己的游戏社区,而且其内里蕴含的算法与策略也被诸多玩家开发利用。今天笔者就用算法来介绍一下魔塔社区中发现的“全蓝宝石转化理论”。

2023-12-17 22:04:39 1210

原创 时间序列机器学习论文:iTransformer

本文反思了为什么Transformer模型在时间序列预测的问题上没有传统的线性模型效果好。文章作者认为,Transformer并非不适合于时间序列预测任务,而是以往的研究者没有“正确使用”Transformer。在没有大改Transformer模型的情况下,通过将输入Embedding的进行转置,使得自注意力层与前向层所提取的特征进行了互换,经过试验发现无论是预测效果还是模型可解释性都大大提高了,论文具有一定指导意义,这个转置的技巧也可以用在以往的模型之中。

2023-11-10 23:37:12 1854

原创 Kaggle竞赛:Categorical Feature Encoding Challenge II

这是Kaggle上的一个分类任务竞赛,给出的数据集没有明确的业务背景,但是只包含分类数据,包括:二分类数据,低分类数与高分类数的类别特征,低分类数与高分类数的顺序特征,以及(潜在包含)的周期特征。选手们需要根据600K条数据预测400K条测试集的二分类可能性。

2023-10-04 18:22:25 217 1

原创 kaggle竞赛金牌策略复现:rossmann-store-sales的第三名策略——Entity Embedding

对于这样一个有着很多类别的特征而言,不能使用传统的热编码或者哑变量来进行预处理:因为这样不仅会使得特征具有严重的稀疏性,而且哑变量/热编码也会造成维度灾难,会严重影响模型的效果。原比赛者提出了使用Embedding层来对离散特征进行预处理,效果较好。

2023-08-13 14:56:31 307 1

原创 【机器学习】Prophet模型训练过程代码浅读+使用pymc复现stan文件中的贝叶斯建模过程

Prophet是Facebook公司开源的一款时间序列预测模型接口,可用R语言或python进行相关时间预测操作,本文将会从它的代码上对其进行模型拟合以及预测的过程进行一个梳理,并使用python中的pymc包进行Stan文件中贝叶斯建模的复现。

2023-06-22 23:37:34 1779 1

原创 机器学习模型代码自我复现:贝叶斯线性回归

贝叶斯建模与传统频率派不同,将参数视作符合某一分布的随机变量,并且可以考虑先验分布使得在建模时能够有更高的可信度;然而由于计算复杂度大,必须使用采样法或变分法,可能会使得计算精确度下降,并且增加时间成本。

2023-06-08 01:51:02 636

原创 机器学习论文浅读:TimesNet

简单介绍了TimesNet的模型架构:通过傅里叶变换提取周期,将一维的时间序列转化为n个周期并排的二维序列,以此能够使用二维卷积以及类ResBlock的结构提取特征,在短期、长期预测、分类、异常检测以及缺失值处理这5个任务上都展现出了超越其他模型的效果。

2023-05-01 11:43:45 3854 11

原创 kaggle竞赛数据集:rossmann-store-sales

本次根据第一名给出的pdf策略进行了特征提取与建模操作;在此期间使用了Prophet作趋势项与季节因素的提取操作,Null Importance作特征筛选,Optuna对模型参数进行贝叶斯优化选取。

2023-04-01 02:00:44 1559 1

原创 机器学习调参原理:贝叶斯优化(并基于高斯过程回归的实现SMBO算法)

传统的机器学习超参搜索方法是没有先验知识参与的,已经搜索过的参数没有对之后的参数搜索进行指导,而使用贝叶斯优化,则是会将历史搜索的记录用以作为先验知识来帮助判断下一步如何调参。本文基于高斯过程回归简单介绍了贝叶斯优化的原理,并使用代码作了简单复现。

2022-12-11 22:52:30 4075

原创 机器学习实战:沃尔玛销量预测(M5竞赛)

参考了Konstantin的特征处理,使用了XGBoost,lightGBM,CatBoost以及Blending策略对M5数据集中的德克萨斯州家居类产品作了预测。得到了可以接受的一个结果。

2022-11-28 01:41:36 4473 4

原创 机器学习论文源代码浅读:Autoformer

原本想要和之前一样写作“代码复现”,然而由于本人一开始对于Autoformer能力理解有限,参考了一定的论文中的源代码,写着写着就发现自己的代码是“加了注释版本”的源代码,故而只能是源代码的浅读,而非复现。

2022-10-23 11:19:45 3061 2

原创 机器学习模型自我代码复现:使用numpy复现GRU

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述。GRU属于RNN的一类,使用门控在一定程度上抑制了梯度消失的问题。在实际实现时,由于没有精力在数学层面上进行优化,这里使用梯度裁剪以及LayerNormalization以避免梯度爆炸以及过拟合。

2022-09-12 16:15:05 630

原创 机器学习模型自我代码复现:使用numpy复现CNN

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述。如文中或代码有错误或是不足之处,还望能不吝指正。本文侧重于使用numpy重新写出一个CNN模型,故而不像其他文章那样加入图片演示正向传播与反相传播的原理或是某个特定函数的求导过程以及结论。

2022-08-23 22:46:40 871

原创 机器学习模型自我代码复现:MLP多层感知机

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述,仅罗列自己将要使用到的部分公式。如文中或代码有错误或是不足之处,还望能不吝指正。本文侧重于使用numpy重新写出一个使用BP算法反向传播的MLP模型,故而不像其他文章那样加入图片演示正向传播与反相传播的原理或是某个特定函数的求导过程以及结论。......

2022-07-29 22:45:12 750

原创 机器学习模型自我代码复现:GMM

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述,仅罗列自己将要使用到的部分公式。如文中或代码有错误或是不足之处,还望能不吝指正。

2022-05-07 12:07:07 281

原创 机器学习模型自我代码复现:SVM(SMO算法)

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述,仅罗列自己将要使用到的部分公式。如文中或代码有错误或是不足之处,还望能不吝指正。

2022-05-02 14:37:25 1384

原创 机器学习模型自我代码复现:GBDT

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述,仅罗列自己将要使用到的部分公式。如文中或代码有错误或是不足之处,还望能不吝指正。

2022-04-24 16:38:13 1620

原创 机器学习模型自我代码复现:回归树

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述,仅罗列自己将要使用到的部分公式。

2022-04-17 17:07:56 1236

原创 机器学习模型自我代码复现:DBSCAN

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述,仅罗列自己将要使用到的部分公式。

2022-04-06 22:55:27 1608

原创 机器学习模型自我代码复现:KD树

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述,仅罗列自己将要使用到的部分公式。

2022-04-03 19:40:12 1743

原创 机器学习模型自我代码复现:Softmax分类

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述,仅罗列自己将要使用到的部分公式。

2022-03-31 23:40:34 1325

原创 机器学习模型自我代码复现:回归

根据模型的数学原理进行简单的代码自我复现以及使用测试,仅作自我学习用。模型原理此处不作过多赘述,仅罗列自己将要使用到的部分公式。

2022-03-26 14:18:48 2211

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除