numpy-ml GBDT源码阅读

最新推荐文章于 2024-09-03 08:56:21 发布

数学工具构造器

最新推荐文章于 2024-09-03 08:56:21 发布

阅读量309

点赞数

本文链接：https://blog.csdn.net/TQCAI666/article/details/113246321

版权

这篇博客深入探讨了numpy-ml库中的GBDT实现，重点解析了交叉熵公式及其对预测概率的导数。文章指出，对于K类分类任务，GBDT实际上训练了K棵树，并利用独热编码处理类别。每步决策树的拟合关注于负梯度部分，即p(y^)p(y)，解释了如何通过梯度提升逐步优化模型。

摘要由CSDN通过智能技术生成

CSDN

交叉熵的公式是 $-\Sigma_k^{K}p(y_k)\log p(\hat{y}_k)$ ，

对 $\hat{y}$ 求导后得到 $-\Sigma_k^{K}\frac{p(y_k)}{ p(\hat{y}_k)}$

体现在这个公式中：

numpy_ml.trees.losses.CrossEntropyLoss.grad

def grad(self, y, y_pred):
    eps = np.finfo(float).eps   # 对y_pred求导
    return -y * 1 / (y_pred + eps)

注意到，对于分类任务，如果有 $K$ 个类，本质上是训练 $K$ 个树，然后用OHE将类别 $\in [0,K)$ 处理为k个0,1的列向量。所以对于第k个分量，交叉熵退化为 $-p(y)\log p(\hat{y})$ 。

每步决策树拟合的负梯度： $\frac{p(y)}{ p(\hat{y})}$

	$y = 0$	$y = 1$
$\hat{y}=0$	0	$\infin$
$\hat{y}=1$	0	1

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

数学工具构造器

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

ML之Tree：树类模型的简介、决策树模型常见分类(CART、ID3、C4.5)、【数值型】特征中“离散型”特征和“连续型”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

05-12

1933

ML之Tree：树类模型的简介、决策树模型常见分类(CART、ID3、C4.5)、【数值型】特征中“离散型”特征和“连续型”特征的处理区别、树类模型处理【类别型】特征的两种策略及其代码实战目录相关文章树类模型的简介理论分析：决策树模型本身的内部结构是对【数值型】特征中的“连续型”特征和“离散型”特征的处理简介案例实战：树类模型处理【类别型】特征的两种策略相关文章 ML：机器学习中有监督学习算法的四种最基础模型的简介(基于概率的模型、线性模

numpy-ml：机器学习，以numpy表示

02-04

numpy-ml 是否曾经希望您有一个效率低下但清晰易读的机器学习算法集合，这些算法仅在NumPy中实现？没有？安装快速实验要将此代码用作ML原型设计/实验的起点，只需克隆存储库，创建一个新的，然后开始黑客攻击： $ git clone https://github.com/ddbourgin/numpy-ml.git $ cd numpy-ml && virtualenv npml && source npml/bin/activate $ pip3 install -r requirements-dev.txt 作为包装如果您不打算修改源代码，则还可以将numpy-ml作为

参与评论您还未登录，请先登录后发表或查看评论

Python / NumPy 实现 ML

newCraftsman的博客

04-02

278

CNN Conv1D '''x->[2, 7, 5], kernel->[2, 4, 5]''' x = np.arange(70).reshape(2, 7, -1) # 2个句子，每个句子维度为[7, 5] kernel = np.arange(40).reshape(2, -1, 5) # 一个2层的卷积核，每层维度为[4, 5] kernel_size = kernel.shape[1] kernel_out = [] for b in range(x.shape[0]):

numpy-ml 使用指南

热门推荐

sikh_0529的博客

09-16

1万+

用于机器学习的 NumPy（ML）

Hands-On Machine Learning with Scikit-Learn and TensorFlow纠错后源码

07-05

在“handson-ml-master”这个压缩包中，包含了书中各个章节的源码文件，这些文件可以帮助读者更直观地学习和复现书中的例子。例如，你可以找到关于数据集加载、特征工程、模型训练、模型评估的Python脚本，这些都是...

GBDT推荐算法源代码

qq_44754035的博客

04-28

1533

# 导入所用到的库 import pandas as pd from IPython.display import display import numpy as np from sklearn.ensemble import GradientBoostingClassifier from sklearn.linear_model import LogisticRegression from sk...

技术实践干货 | 初探大规模 GBDT 训练

AI+BI,大数据分析,数据可视化,商业智能,数据驾驶舱 - 观远数据

07-27

860

本文是此前评估在 Spark 上做大规模 GBDT 训练时写的一篇入门级教程与框架评估。目前市面上似乎没有多少使用 Spark 来跑 GBDT 的分享，故分享出来看看是否有做过类似场景的同学可以一道交流。

风控ML[10] | 风控建模中的自动分箱的方法有哪些

Pysamlam的博客

02-04

1679

之前有位读者朋友说有空介绍一下自动分箱的方法，这个确实在我们实际建模过程前是需要解决的一个问题，简单来说就是把连续变量通过分箱的方式转换为类别变量。关于这个话题，我也借着这个主题来系统的梳...

SparrowRecSys：深度学习推荐系统

02-03

SparrowRecSys SparrowRecSys是一个电影推荐系统，名字SparrowRecSys（麻雀推荐系统），取自“麻雀虽小，五脏俱全”之意。项目是一个基于maven的混合语言项目，同时包含了TensorFlow，Spark，Jetty Server等推荐系统的不同模块。希望您能够利用SparrowRecSys进行推荐系统的学习，并有机会一起完善它。基于SparrowRecSys的实践课程受极客时间邀请建立课程，详细讲解了SparrowRecSys的所有技术细节，覆盖了深度学习模型结构，模型训练，特征工程，模型评估，模型在线服务及推荐服务器内部逻辑等模块。环境要求 Java 8 Scala2.11 Python 3.6+ TensorFlow 2.0+ 快速开始将项目用IntelliJ打开后，找到RecSysServer ，右键点选Run ，然后在浏览器中输入http://localhost:6010/即可看到推荐系统的前端效果。项目数据项目数据标准化开源电影数据集，项目自带数据集对MovieLens数据集进行了精简，仅保留1000部电影和相关评论，用

不可不学Numpy，带你快速撸Numpy代码，（Python学习教程）一遍过

chen801090的博客

11-07

481

我们一起来学习Python数据分析的工具学习阶段，包括Numpy，Pandas以及Matplotlib，它们是python进行科学计算，数据处理以及可视化的重要库，在以后的数据分析路上会经常用到，所以一定要掌握，并且还要熟练！今天的Python学习教程先从Numpy开始！本文目标初识Numpy ndarray的增删改查 ndarray切片与筛选 ndarray运算与排序 NumPy 简介 ...

Numpy中的argsort源码解析

Thomas_Cai的记忆殿堂

04-20

417

numpy的argsort排序算法，默认为快速排序模式，但其中是由三个算法组成的，分别为快速排序，插入排序以及堆排序，官方给的阈值为15，即需要排序的元素长度超过15则会进入快速排序。快速排序的细节：前后循环到中间位置pm交换值使得pm前面的值小于pm对应值，后面的值大于pm对应的值，然后分为两部分，把元素较多部分放入栈中，利用栈来进行深度遍历。之后，再进入插入排序，双指针往后退来排序。最后，如果达成某个条件（NPY_UNLIKELY(cdepth < 0)）进入堆排序，这个还没看懂，至少我还进

numpy

ml_hhy的博客

07-11

525

ndarray的数据类型 dtype（数据类型）是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息： dtype是NumPy灵活交互其它系统的源泉之一。多数情况下，它们直接映射到相应的机器表示，这使得“读写磁盘上的二进制数据流”以及“集成低级语言代码（如C、Fortran）”等工作变得更加简单。 ndarray的具体数据类型有：注意：使用numpy.st...

numpy-ml 决策树源码分析

using namespace 数学工具构造器;

01-26

417

源码： numpy_ml/trees/dt.py 文档： Tree-based models DecisionTree 写一个入口代码进行调试 from sklearn.datasets import load_iris from sklearn.metrics import accuracy_score from sklearn.model_selection import train_test_split from numpy_ml.trees import DecisionTree X, y =

客户端码农学习ML —— Numpy基本用法

weixin_34244102的博客

03-10

211

本文从创建矩阵、维度变换、矩阵运算、随机数、索引等方面总结numpy中基本用法，脚本首先import numpy as np。创建矩阵 np.array([1, 2, 3]) 输出 [1 2 3] np.array([(1, 2, 3), (4, 5, 6)], dtype=np.int32) 指定类型int32，输出 [[1 2 3] [4 5...

NumPyML 源码解析（一）

龙哥盟

02-16

911

name: Bug/Performance Issue about: Use this template for reporting a bug or a performance issue. labels: bugfix System information OS Platform and Distribution (e.g., Linux Ubuntu 16.04): Python version: NumPy version: Describe the current behavior Desc

numpy，numpy-base,numpy-devel的区别是什么

04-16

numpy-base是numpy的核心模块，包含了ndarray对象和基本的数组操作函数。它是numpy的基础部分，其他模块都依赖于它。 numpy-devel是numpy的开发模块，包含了一些额外的功能和工具，用于numpy的开发和扩展。它提供了...