thorn_r-CSDN博客

原创 AI驱动文字冒险游戏

虽然游戏比较简陋，但是由于笔者不想对游戏做过多的“剧透”，因此本文只粗略讲一下大致逻辑以及部分代码，有兴趣的朋友可以看上面的仓库获得更详细的部分。

2025-05-02 18:33:42 1043

原创【HuggingFace】基于检索策略的隐私政策标注应用

现在注册网站都需要同意隐私政策才可以注册，然而隐私政策条文过于复杂冗余让人难以阅读而且用户急于进入应用，因此有很多人都是直接勾选“已经阅读并同意xx政策”。在这一数据集中，包含130个来自流行应用的中文隐私政策，这些政策由法律专家进行标注，甚至还有许多的重写句子。该数据集旨在帮助用户理解和总结隐私政策，以保护个人隐私信息。本次的任务，就是利用数据集做一个自动标注隐私数据的应用。

2024-11-10 20:31:22 896

原创 Kaggle竞赛:Rossmann Store Sales第66名策略复现

之前做过一次Kaggle的时间序列竞赛数据集练习，但是效果并不理想，之后在Kaggle的评论中又找到了各式各样的模型方法，其中我还手动还原过第三名的Entity Embedding。这个参赛方法中，使用了除了比赛给出的数据以外的外部数据（天气数据等）。而这次，我准备还原一个没有使用外部数据且方法较为简单，但是效果较好的策略。也就是第66名的策略。

2024-08-31 19:09:08 1229

原创【Hugging-Face模型部署】将使用Transformers训练好的模型放到.NET项目中

本文记录了将Transformers训练好的NLP生成任务模型放到dot NET项目中的过程与步骤，期望能够帮助到需要部署模型到dot NET上的人。

2024-07-20 21:12:56 1372

原创【因果推断】优惠券政策对不同店铺的影响

本文使用了竞赛用的销售数据进行了销售额与优惠券政策的因果推断。实际上更多的是因果推断方法论的学习。对于优惠券政策而言，销售额很有可能并非是真正的干预目标，而且店铺是否要发现优惠券，也需要考量除了数据集以外的其他因素。而对于销售额的干预影响，很多公司都会做Uplift Model来衡量，笔者有空也会对此进行学习。

2024-07-07 21:57:32 1169

原创 Kaggle线上零售 CRM分析（RFM+BG-NBD+生存分析+PySpark）

这个此在线零售数据集包含2009年12月1日至2011年12月9日期间的在线零售的所有交易。该公司主要销售独特的各种场合礼品。这家公司的许多客户都是批发商。本文将通过pyspark对数据进行导入与预处理，进行可视化分析并使用RFM、生存分析与BG-NBD模型进行对购买客户的各项分析。

2024-06-02 16:45:33 1278

原创模型推导：BG/NBD(预测用户生命周期(CLV)模型)

CLV（Customer Lifetime Value）指的是客户生命周期价值，用以衡量客户在一段时间内对企业有多大的价值。企业对每个用户的流失与否、在未来时间是否会再次购买，还会再购买多少次才会流失等问题感兴趣，本文所推导的BG/NBD模型就是用来解决这样一系列问题的。

2024-05-12 17:16:47 1035

原创 Pyspark+关联规则 Kaggle购物篮分析案例

零售商期望能够利用过去的零售数据在自己的行业中进行探索，并为客户提供有关商品集的建议，这样就能提高客户参与度、改善客户体验并识别客户行为。本文将通过pyspark对数据进行导入与预处理，进行可视化分析并使用spark自带的机器学习库做关联规则学习，挖掘不同商品之间是否存在关联关系。

2024-05-01 20:48:21 2060 3

原创时间序列模型：lag-Llama

这是一个借鉴了Llama模型结构的单变量概率时间预测模型，使用了海量的数据集进行预训练，用户可以根据实际的任务进行模型微调或者直接进行零样本推理。模型从六个领域搜集了27个时序数据，根据不同的频数分为了7965个数据集进行预训练，之后又从其他数据集上进行零样本学习以及微调，使用CRPS评估的结果如图所示，Lag-Llama微调后的平均结果更好，仅2.786左右。

2024-04-14 22:46:17 2048

原创【hugging-face模型微调】利用预训练模型生成“黑暗之魂”式物品描述

项目地址：https://github.com/thornbsj/DS_PAIR游戏“黑暗之魂”系列中一直以其隐晦的剧情以及其“碎片化叙事”著称。除去一般游戏中采用的环境叙事以及NPC的语言叙事外，还会将部分剧情背景通过物品描述的形式糅合进游戏中。通过“魂式文风”的物品描述来推测背景故事也是玩家们乐此不疲的一件事。本文就希望能够借助于预训练好的语言模型，输入物品描述，让模型输出一个相关的背景故事。

2024-03-31 21:23:23 1473

原创论文代码阅读及部分复现：Deep Lasso

通常真是数据集中很少回包含“对于预测完全没有帮助的高斯噪声特征”，但是以往在评估特征选择算法时，会手动造数据并包含由高斯分布生成的“纯噪音特征”，不仅和事实大相径庭，而且这也使得特征选择算法的任务变得比真实情况更加“简单”了；所以作者基于真实数据集构造特征选择的评估基准，并加入了随机噪音特征、损坏特征和作为特征工程原型的二阶特征（有可能是冗余特征），通过对特征选择后的数据下游模型(MLP和FT-Transformer)效能评估来评估特征选择的效果。

2024-02-12 17:13:41 1874

原创论文代码阅读及部分复现：Revisiting Deep Learning Models for Tabular Data

现有的关于表格数据做深度学习的模型层出不穷，但是作者认为，由于在真实使用模型时有着不同的基准以及实验场合，这些提出的模型没有被很好地比较。因此，论文作者在论文中对各类模型进行了综述，并且自身提出了一个对Transformer作简单改进的模型：FT-Transformer，最终将ResNet-like类模型、Transformer-like类模型以及其他MLP模型在不同的数据集上训练、对比效果，最终确定了一个较好的衡量针对表格数据的深度学习模型的标准（bennchmark）。

2024-02-02 00:38:03 2644 1

原创机器学习论文及代码浅读：LassoNet

论文提出了一个在神经网络中能够做特征提取的结构：LassoNet，其核心思想，是使用一个“Skip层”的结构来控制要进入后面隐层的特征数量，从而实现特征的稀疏化。尽管原理看上去很简单，但是针对其进行反向传播的优化算法（Warm Start和Hier-Prox算法），实际上有着相当的数学最优化原理。这篇论文实际上结合了原本线性模型种的L1正则化与ResNet的思路，可以说有着借鉴价值。

2023-12-28 17:01:14 2576

原创游戏中的数学：魔塔中的全蓝宝石转换理论

魔塔是一款经典的策略益智游戏，自问世以来一直受部分玩家的追捧，各个魔塔爱好者不仅将这个玩法作为基准推陈出新造出了一系列的同人创作并发展出了自己的游戏社区，而且其内里蕴含的算法与策略也被诸多玩家开发利用。今天笔者就用算法来介绍一下魔塔社区中发现的“全蓝宝石转化理论”。

2023-12-17 22:04:39 1668

原创时间序列机器学习论文：iTransformer

本文反思了为什么Transformer模型在时间序列预测的问题上没有传统的线性模型效果好。文章作者认为，Transformer并非不适合于时间序列预测任务，而是以往的研究者没有“正确使用”Transformer。在没有大改Transformer模型的情况下，通过将输入Embedding的进行转置，使得自注意力层与前向层所提取的特征进行了互换，经过试验发现无论是预测效果还是模型可解释性都大大提高了，论文具有一定指导意义，这个转置的技巧也可以用在以往的模型之中。

2023-11-10 23:37:12 3271

原创 Kaggle竞赛：Categorical Feature Encoding Challenge II

这是Kaggle上的一个分类任务竞赛，给出的数据集没有明确的业务背景，但是只包含分类数据，包括：二分类数据，低分类数与高分类数的类别特征，低分类数与高分类数的顺序特征，以及（潜在包含）的周期特征。选手们需要根据600K条数据预测400K条测试集的二分类可能性。

2023-10-04 18:22:25 375 1

原创 kaggle竞赛金牌策略复现：rossmann-store-sales的第三名策略——Entity Embedding

对于这样一个有着很多类别的特征而言，不能使用传统的热编码或者哑变量来进行预处理：因为这样不仅会使得特征具有严重的稀疏性，而且哑变量/热编码也会造成维度灾难，会严重影响模型的效果。原比赛者提出了使用Embedding层来对离散特征进行预处理，效果较好。

2023-08-13 14:56:31 544 1

原创【机器学习】Prophet模型训练过程代码浅读+使用pymc复现stan文件中的贝叶斯建模过程

Prophet是Facebook公司开源的一款时间序列预测模型接口，可用R语言或python进行相关时间预测操作，本文将会从它的代码上对其进行模型拟合以及预测的过程进行一个梳理，并使用python中的pymc包进行Stan文件中贝叶斯建模的复现。

2023-06-22 23:37:34 2349 1

原创机器学习模型代码自我复现：贝叶斯线性回归

贝叶斯建模与传统频率派不同，将参数视作符合某一分布的随机变量，并且可以考虑先验分布使得在建模时能够有更高的可信度；然而由于计算复杂度大，必须使用采样法或变分法，可能会使得计算精确度下降，并且增加时间成本。

2023-06-08 01:51:02 1024

原创机器学习论文浅读:TimesNet

简单介绍了TimesNet的模型架构：通过傅里叶变换提取周期，将一维的时间序列转化为n个周期并排的二维序列，以此能够使用二维卷积以及类ResBlock的结构提取特征，在短期、长期预测、分类、异常检测以及缺失值处理这5个任务上都展现出了超越其他模型的效果。

2023-05-01 11:43:45 8550 16

原创 kaggle竞赛数据集：rossmann-store-sales

本次根据第一名给出的pdf策略进行了特征提取与建模操作；在此期间使用了Prophet作趋势项与季节因素的提取操作，Null Importance作特征筛选，Optuna对模型参数进行贝叶斯优化选取。

2023-04-01 02:00:44 2531 2

原创机器学习调参原理：贝叶斯优化（并基于高斯过程回归的实现SMBO算法）

传统的机器学习超参搜索方法是没有先验知识参与的，已经搜索过的参数没有对之后的参数搜索进行指导，而使用贝叶斯优化，则是会将历史搜索的记录用以作为先验知识来帮助判断下一步如何调参。本文基于高斯过程回归简单介绍了贝叶斯优化的原理，并使用代码作了简单复现。

2022-12-11 22:52:30 5746

原创机器学习实战：沃尔玛销量预测（M5竞赛）

参考了Konstantin的特征处理，使用了XGBoost,lightGBM,CatBoost以及Blending策略对M5数据集中的德克萨斯州家居类产品作了预测。得到了可以接受的一个结果。

2022-11-28 01:41:36 6349 5

原创机器学习论文源代码浅读：Autoformer

原本想要和之前一样写作“代码复现”，然而由于本人一开始对于Autoformer能力理解有限，参考了一定的论文中的源代码，写着写着就发现自己的代码是“加了注释版本”的源代码，故而只能是源代码的浅读，而非复现。

2022-10-23 11:19:45 3744 2

原创机器学习模型自我代码复现：使用numpy复现GRU

根据模型的数学原理进行简单的代码自我复现以及使用测试，仅作自我学习用。模型原理此处不作过多赘述。GRU属于RNN的一类，使用门控在一定程度上抑制了梯度消失的问题。在实际实现时，由于没有精力在数学层面上进行优化，这里使用梯度裁剪以及LayerNormalization以避免梯度爆炸以及过拟合。

2022-09-12 16:15:05 830

原创机器学习模型自我代码复现：使用numpy复现CNN

根据模型的数学原理进行简单的代码自我复现以及使用测试，仅作自我学习用。模型原理此处不作过多赘述。如文中或代码有错误或是不足之处，还望能不吝指正。本文侧重于使用numpy重新写出一个CNN模型，故而不像其他文章那样加入图片演示正向传播与反相传播的原理或是某个特定函数的求导过程以及结论。

2022-08-23 22:46:40 1009

原创机器学习模型自我代码复现：MLP多层感知机

根据模型的数学原理进行简单的代码自我复现以及使用测试，仅作自我学习用。模型原理此处不作过多赘述，仅罗列自己将要使用到的部分公式。如文中或代码有错误或是不足之处，还望能不吝指正。本文侧重于使用numpy重新写出一个使用BP算法反向传播的MLP模型，故而不像其他文章那样加入图片演示正向传播与反相传播的原理或是某个特定函数的求导过程以及结论。......

2022-07-29 22:45:12 924