浪漫的数据分析-CSDN博客

原创 Deepseek技术原理2：最详细图解模型结构MTP和思考

火热的DeepSeek模型结构的改进上，除了MLA、MOE，还有个MTP（Multi-Token Prediction）--多词预测，简单说是：让模型在训练时，一次性预测多个未来词（token），而不是仅仅预测下一个词（token）。这样计算loss时，除了和next token计算loss外，还可以和未来的token标签进行多个loss的计算，效果上可以加速模型收敛。DeepSeek V3原始论文中的示意图，把几件事情杂糅在一起，所以看着理解起来有点费劲，别急，我会详细的剖析，拆分成多个环节来讲，结合图

2025-03-14 09:00:00 1841 1

原创【Deepseek技术原理】第一篇：深度剖析和图解模型结构MLA

最近DeepSeek在国际很火，甚至引起了美国总统的关注，一方面效果比肩闭源模型ChatGPT/O1，另外它开启了除openAI的pretrain+SFT+RLHF之外的新范式，同时训练和运行成本极低，引起国内讨论DeepSeek是否是国运级的创新。网上文章很多，但是真正能讲清楚原理的却少有。本博客的特点是结合图示，去深刻理解论文中的各种数学公式，极大的加深对模型原理的理解。

2025-03-14 00:26:00 1022

原创 Embodied AI 具身智能

具身智能定义：智能体通过与环境产生交互后，通过自身的学习，产生对于客观世界的理解和改造能力。具身智能假设：智能行为可以被具有对应形态的智能体，通过适应环境的方式学习到。因此，地球上所有的生物，都可以说是具身智能。具身智能是能够提升当前的“弱人工智能”认知能力的重要方式。人工智能可以通过与环境交互的渠道，从真实的物理或虚拟的数字空间中学习和进步。同时，具身智能是产生超级人工智能的一条可能路径。具身AI对立的词是Internet AI，指通过互联网上的数据进行学习，比如我们一直在做的CV、NLP。

2023-04-12 14:00:43 1845

原创 Pytorch transformers tokenizer 分词器词汇表添加新的词语和embedding

NLP添加新词汇

2023-02-04 01:06:04 6562 4

原创 pytorch/transformers 最后一层不加激活函数的原因

bert最后一层为什么没有激活函数softmax或者sigmoid？

2023-01-06 16:09:10 2131 1

原创【优秀的NLP/多模态】优秀讲解资料汇总

NLP优秀的学习资料

2022-12-24 14:44:20 479 10

原创 paddlepaddle无法识别GPU的坑

paddle安装的坑，识别不了GPU

2022-10-17 00:03:20 7859 3

原创 CatBoost 和 Light GBM 和 XGBoost 使用GPU训练对比

Kaggle比赛各种增强算法，CatBoost 和 Light GBM 和 XGBoost每种算法处理类别变量了解参数在数据集上实现每种算法的性能

2022-07-11 17:05:08 6316

原创 AI智能抠图工具--头发丝都可见

AI智能抠图，细到头发丝级别，而且非常快速，1分钟出片，高清效果

2022-06-25 19:09:39 822

原创随机森林做特征重要性排序和特征选择

随机森林模型介绍：随机森林模型不仅在预测问题上有着广泛的应用，在特征选择中也有常用。随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单，易于实现，计算开销也很小，更令人惊奇的是它在分类和回归上表现出了十分惊人的性能。随机森林模型在拟合数据后，会对数据属性列，有一个变量重要性的度量，在sklearn中即为随机森林模型的 feature_importances_ 参数，这个参数返回一个numpy数组对象，对应为随机森林模型认为训练特征的重要程度，float类型，和为1，特征重要性度数组中，数值越

2022-02-24 16:56:10 61106 15

原创量化投资之定投，无脑却收益还不错，记得周三来

目标：本系列开始重点研究量化，逐步改善模型，改善策略，然后评估各个策略的优劣。本文是第一篇，也是最容易最无脑投资的一篇，每周三定投，收益还不错。内容：如果工作太忙没法投资，闲钱无处放，不妨看看这这种方式。学金融的都知道最简单靠谱的投资方式：定投。是否真有效？假期封在家，做了下实验。假设每周，通过支付宝线下买基金定投1000，从15年元旦开始。就投创业板吧，亏钱了就当给科技做贡献。要知道15年可是股灾年，19年也是，经历了2次股灾还能有收益吗？一起来看看到今天2020-02-07，收益如何？

2022-02-07 02:07:30 1134

原创 python查漏补缺--抽象类和接口以及Overrides、函数重载

目标：掌握python中的抽象类和抽象接口。封装和继承在java中用得挺多的，python中貌似用得真不多，但是为了应付考试，也是的了解。学习内容：抽象类，就是总结一些基本方法，每个子类必须自己实现这些方法。如果是接口，应该强制子类实现。不实现就报错。python抽象类和接口的区别：接口中的方法全部需要用抽象方法，强制继承的对象实现。抽象类可以有部分方法已经实现python 原生不支持接口类，需要导入abc包。python3.4以后自带此包，不用在import1、定义一个抽象类。from

2022-01-19 01:05:11 1684

原创报错org.apache.htrace htrace-core4 4.1.0 incubating htrace-core4.jar 报错spark

[NOT FOUND ]

2022-01-16 12:20:44 1744

原创 win10安装部署网络测试工具 NetCat 用于Spark跑测试

win10安装部署网络测试工具 NetCat：步骤：提示：这里可以添加要学的内容例如：1、官方下载2、复制nc64.exe相关文件3、执行nc64命令监听端口4、执行nc64命令，向指定端口发送数据官方下载：下载地址：https://eternallybored.org/misc/netcat/1、两个版本都可以使用，这里选择 netcat 1.12复制文件：把下载好的文件解压，将文件夹中的所有内容复制到C:\Windows\System32的文件夹下提示：win1

2022-01-15 19:10:21 11096

原创推荐系统的发展演进历史和模型的目标及优缺点

推荐系统发展历程提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录推荐系统发展历程前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，

2021-12-24 20:22:11 10763 1

原创 tensorflow2 训练和预测使用不同的输出层、获取权重参数

目标：通过训练tensorflow2时设置不同的输出分支，然后可以在训练和测试时，把模型进行分离，得到训练和预测时，某些层的参数不同。目前还没发现有更好的办法。第二，获取训练模型的参数。获取模型参数：比较简单，就是调用#获取训练后的权重参数weigts_parm = model.get_weights()获得的就是模型参数的每一层权重和偏置信息。模型不同输出：想不到更好办法，如果有人有其他办法，更好。原理就是：模型构建时，构建两个分支，一个用于训练train，一个用于预测pr

2021-12-19 15:06:17 5593

原创 tensorflow 1.X迁移至tensorflow2 代码写法

这里写目录标题目标：代码改写成tf2格式tf1和tf2区别：改写内容：tf.placeholdertf.Sess,sess.run具体例子1：结论：目标：代码改写成tf2格式把tensorflow 1.X中的代码，迁移到tensorflow2中。一些常见的改写经验。包括sess，tf.placeholder， tf.InteractiveSession()，tf.Session()tensorflow2相比于tensorflow 1.x版本有较大的变化，且网上现在好多文章的代码都是基于tf1.x版本的

2021-12-13 01:44:24 4740

原创 TensorFlow2快速模型构建及tensorboard初体验

学习目标：了解TensorFlow 2 模型构建方法，掌握keras。同时结合tensorboard图像化展示，进而进行模型的调优等。模型目标：预测图片分类预测任务：预测像素点为（28,28）的灰度照片的分类。数据集为 tf.keras.datasets.fashion_mnist的分类数据学习内容1：构建模型构建方法：采用keras中的layer，一层层堆叠，然后compile代码：import tensorflow as tffashion_mnist = tf.keras.

2021-12-04 22:44:31 848

原创 tf.nn.dropout和tf.keras.layers.Dropout的区别（TensorFlow2.3）与实验

这里写目录标题场景：dropout和Dropout区别问题描述：结论：深层次原因：dropout是底层API，Dropout是高层API场景：dropout和Dropout区别全网搜索tf.nn.dropout和tf.keras.layers.Dropout区别，发现好多都是错误的讲解，因此有必要进行一次实验和纠错。tf.nn.dropout和tf.keras.layers.Dropout的区别，看本文就足够了。问题描述：tf.nn.dropout和tf.keras.layers.Dropou

2021-11-29 01:52:26 4695 1

原创 tensorflow2 神经网络模型构建4种方法

这里写目录标题学习目标：学习内容：1. 使用现有的预训练模型线下训练，线上加载运行线下训练线上加载迁移学习2.Keras Sequential模式建立模型(不推荐，灵活性太差）3.Functional API 函数api建立模型（最常用，可构建复杂网络）4.tf构建模型Class总结：学习目标：tensorflow2模型构建4种方法，掌握其优缺点。顺便：compile是TensorFlow2专门用来训练模型的，很方便，避免了写Gradenttape那种形式化结构，直观明了，一定要掌握。学习内容：

2021-11-29 01:27:03 3211

原创阿里DIN模型(深度兴趣网络)详解及理解

这里写目录标题目标：模型产生原因：核心思想：模型介绍：Base model改进模型模型算法设计论文的算法改进参考资料目标：掌握2017年阿里提出的深度兴趣网络（Deep Interest Network for Click-Through Rate Prediction）以及后续的DIEN。本篇介绍DIN原文：Deep Interest Network for Click-Through Rate Prediction21 Jun 2017Deep Interest Evolution Net

2021-11-16 01:46:13 10317 1

原创 XGBoost对比RandomForest、GBDT、决策树、SVM，XGB+LR精度还能提升

目标：对比各种模型，XGBoost直接判了RandomForest、GBDT、决策树、SVM等死刑，XGB+LR精度还能提升。XGBoost：目前树模型的天花板，所有决策树中，XGBoost的精度最高，运行速度也还不错，所以竞赛中，结构化数据的比赛，基本都是用它了。另外，实验表明，XGBoost+LR精度还能进一步提升。学习内容：模型对比具体：1、比较在测试集上的AUC表现2、比较模型完成端到端训练预测的时间3、了解算法的优缺点最终对比结果：结果如下：模型测试精度

2021-11-14 23:41:40 7160

原创 Facebook的GBDT+LR模型python代码实现

目标：实现GBDT+LR模型代码，并比较和各种RF/XGBoost + LR模型的效果，发现GBDT+LR真心好用啊。内容：构造GBDT+LR步骤训练阶段：1、获取特性信息2、训练GBDT分类器3、遍历GBDT树的叶子节点，拼接成一个常常的一维向量4、训练OneHot编码器5、训练LR模型预测阶段：1、把带预测的特征输入到GBDT2、获得叶子节点，拼接成一个常常的一维向量3、获得OneHot向量4、LR预测结果这里发现了上篇文章的一个错误：就是GBDT树的叶子节点，输

2021-11-13 17:16:48 2856

原创传统推荐算法Facebook的GBDT+LR模型深入理解

目标：深入理解Facebook 2014年提出的的GBDT+LR模型。CSDN上泛泛而谈的文章很多，真正讲解透彻的没几篇。争取我这篇能讲解透彻。今晚又想了许久，想通了一些原理。也分享出来。算法背景：FaceBook一推出这一模型就引起了业内的轰动，因其设计的巧妙以及预测效果的精良，很多公司一度极力推广，在数据比赛KDD中也经常使用。尽管GBDT+LR依然存在其问题点，但是在当时数据量没有特别大的情况下，这一模型几乎处于横扫千军的状态。后期模型被不停的优化，于是产出了：XGBoost/GBDT+

2021-11-11 23:06:14 3565

原创推荐系统XDeepFM模型--DeepFM和DCN升级版

xDeepFM模型目标：引言：xDeepFM模型介绍：2.1 Compressed Interaction Network（CIN）xDeepFM复杂度分析Experiment产出：Conclusion参考资料：目标：学习模型xDeepFM模型,包含我个人的一些理解。深入理解模型。结合卷积神经网络CNN理解模型原理。昨晚想了一晚上才想通，都失眠了。微软亚洲研究院2018年提出xDeepFM模型，可以理解为对DeepFM和DCN升级版。相对于DeepFM，升级为自动构建高阶交叉特征相对于DCN，从

2021-11-08 01:49:32 4042

原创推荐算法DCN（Deep & Cross）自动构造高阶交叉特征原理介绍

目标：斯坦福与Google联合发表在AdKDD 2017上的论文《Deep & Cross Network for Ad Click Predictions》。特点：对Wide@Deep模型的升级，可以自动自动构造高阶交叉特征。可以说和华为同期提出的DeepFM属于同一种思想，并且走得更远。看了下作者，好像也是中国人。中国不注重AI人才，导致大量的AI领军人物流失。真是可惜。华为同期提出的DeepFM只是用了FM替换了Wide@Deep中的Wide（LR）部分，没有提出更多的创新，DCN创新更

2021-11-06 04:05:27 3308

原创推荐算法DeepFM原理介绍及tensorflow代码实现

目标：掌握DeepFM原理，以及发展历程。和具体的代码实现。产生背景：产生DeepFM模型的原因：前面学习的Embedding MLP、Wide&Deep、NerualCF 等几种不同的模型结构，都没有用到交叉特征。特征都是一个一个独立的送进模型训练，对于挖掘特征交叉或者特征组合的信息，比较低效。1、 Embedding MLP是把各个特征，进行了embeding后送进MLP无交叉。直接把独立的特征扔进神经网络，让它们在网络里面进行自由组合。2、 NerualCF也是仅仅把物品和用户分别

2021-11-05 01:24:41 2358

原创经典Wide & Deep模型介绍及tensorflow 2代码实现

[[TOC]]目标：经典推荐深度模型 Wide & Deep。完整的paper名称是《Wide & Deep Learning for Recommender Systems》内容：这篇知乎小哥写的挺简单明了的，直接摘抄过来，原文：知乎原文本文介绍一个经典推荐深度模型 Wide & Deep。完整的paper名称是《Wide & Deep Learning for Recommender Systems》一. 模型介绍wide & deep的模型架构如

2021-11-03 01:11:16 2180

原创协同过滤进化版本NeuralCF及tensorflow2实现

目标：掌握NeuralCF比传统基于矩阵分解的协同过滤算法的改进点，以及算法的优点和缺点。内容：上篇学习了最经典的推荐算法：协同过滤，并基于矩阵分解得到了用户和物品的embeding向量。通过点积可以得到两者的相似度，可进行排序推荐。但传统协同过滤通过直接利用非常稀疏的共现矩阵进行预测的，所以模型的泛化能力非常弱，遇到历史行为非常少的用户，就没法产生准确的推荐结果了。矩阵分解是利用非常简单的内积方式来处理用户向量和物品向量的交叉问题的，所以，它的拟合能力也比较弱。改进点1、能不能利用深度学习

2021-11-01 00:42:59 744 3

原创基于协同过滤算法的在线鲜花店推荐系统详解及GitHub下载

[[TOC]]基于协同过滤的在线鲜花店推荐系统项目需求：基于店铺的客户订单记录，实现店铺的推荐需求：基于RFM模型，得到客户的价值分类，对高价值客户进行重点跟踪，推荐其潜在的商品列表，即实现：给定用户编号，返回10个推荐商品列表。对店铺滞销商品，进行有针对性的促销活动，推荐给最有可能购买的10个用户，结合一些针对性的促销优惠活动，向10个用户推荐。即实现：给定物品编号，返回10个推荐用户列表。店铺尚未搭建Spark大数据环境，可搭建TensorFlow2的环境，因此使用Tenso

2021-10-21 21:09:13 1165

原创 TensorFlow2实现协同过滤算法中的矩阵分解（首家基于TS2版本）

目标：用TensorFlow2，实现协同过滤算法中的矩阵分解。网上找的绝大部分是基于一个模板复制出来的，且基于TensorFlow1，因此本人亲自动手，用TensorFlow2实现。好奇为什么TensorFlow2不帮我们实现了，在Spark中，直接调用spark.mllib.recommendation.ALS() 就好了。内容：在推荐系统中，协同过滤算法是很常用的推荐算法。中心思想：物以类聚，人以群分。也就是口味相同的人，把他喜欢的物品或者电影歌曲推荐给你；或者是将你喜欢的物品，类似的物品

2021-10-19 02:22:05 678

原创 SparkException: Python worker failed to connect back

报错：org.apache.spark.SparkException: Python worker failed to connect back.尝试了各种网上说的办法，不行，然后解决办法：把我的电脑–管理–高级系统设置–环境变量–系统变量，把SPARK_HOME 设置为python的exe文件，就好了，如下图：就搞定了。WIN10 Spark 3.1.2...

2021-10-15 00:37:49 5482 3

原创 random_normal_initializer 使用

学习目标：random_normal_initializer使用学习内容：random_normal_initializer有点奇怪，在tf2中，竟然不可以指定shape。使用示例：产生一个3行4列的随便变量def make_variables(m,n,initializer): return tf.Variable(initializer(shape=[m,n],dtype=tf.float32))然后接着：？random_variable = make_variables(3

2021-10-03 14:35:20 1010

原创 python进阶：搞懂装饰器和切面编程

学习目标：装饰器、切面编程，实际使用体会。纸上学来终觉浅装饰器和切面编程：常见的函数，我们一般的返回值一个常见的数值或者列表，比如：def mysum(a,b): return a + bresult = mysum(1,2)print(result)mysum函数返回的是整数1+2的值，为3.但是python神奇的地方就是，函数的返回值，可以是另一个函数。比如：def mysum_log(): print('input two number for sum ')

2021-07-09 01:23:34 599 1

原创 python字典排序及字典集合去重高阶教程

学习目标：字典dict排序：指定按照key排序或values排序。对字典或者list去除重复元素。学习内容：提示：准备dicta ={'a':1,'b':2,'d':7,'c':23,'m':21,'f':4}1、字典dict按key排序，升序或降序按照字典的key排序：dicta_sorted = sorted(dicta.items(),key=lambda x :x[0])print(dicta_sorted)输出结果：[('a', 1), ('b', 2), ('c',

2021-06-26 17:18:43 1305

原创 python使用redis教程敲黑板划重点

目标：学会使用redis，使用python代码又非常简洁。划重点：原来这货就这点知识。并不难。原文教程太冗余了：详细教程# win7安装redis：win7首先下载客户端：提取码1234然后解压，运行文件夹中的以下服务端和客户端：然后在python终端或者anaconda终端，输入：pip install redis安装redis。当服务端出现以下界面，说明服务端已经启动了。端口号为6379.1、搭建好开发环境，就可以掌握以下知识就够了。连接池连接redis：redis使用

2021-04-10 13:19:46 653 8

原创 StratifiedKFold和KFold（5折验证）交叉验证的联系和区别Python实例

Kfold：将全部训练集分成k个不相交的子集，假设训练集的训练样例个数为m，那么每一个子集有m/k个训练样例，比如[1,2,3,4,5,6]分成两份，则第一份可能为[1,3,5],第二份[2,4,6]。每次从分好的子集里面，拿出一个作为测试集，其他k-1个作为训练集在k-1个训练集上训练出学习器模型，把这个模型用测试集来验证，最后求得所有子集的分类率的平均值，作为该模型或者假设函数的真实分类率。StratifiedKFoldStratifiedKFold用法类似Kfold，但是他是分层采样，确保训

2021-03-29 00:51:24 928

空空如也

空空如也