![](https://img-blog.csdnimg.cn/ddc19758b9a5489f8a364372ed7fc657.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习从0到1
文章平均质量分 93
这个专栏针对机器学习小白的同学,重点在于让大家快速理解和上手,不做过多的理论性的引入,只做必要的公式推导讲解,希望对初学者有所帮助,欢迎大家再给我留言讨论,祝大家学的愉快,早日学有所成,
user28608
这个作者很懒,什么都没留下…
展开
-
(五)决策树剪枝[预剪枝、后剪枝]
第二个分支是按纹理划分的,划分后测试集的准确率是上升的,这个分支保留,第三个是叶子节点没有分支,不需要判断。剪枝的具体操作就是,将数据集分为“训练集”和“测试集“,用训练集来生成决策树,用测试集的准确率,来测试每一个分支是否可以剪掉,剪掉后测试集的准确率上升,可以剪掉,反之剪掉后测试集的准确率下降,不可以剪掉。假设有一个判断西瓜”好“和”坏“的数据集,标签是”好“或”坏“,特征有”脐部”、“色泽”、“纹理”、“触感”、“敲声”。按“脐部”进行划分后测试集的准确率是提高的,所以按脐部的划分不剪枝。原创 2023-10-12 13:48:12 · 346 阅读 · 1 评论 -
(十)LightGBM的原理、具体实例、代码实现
可以用如下一个简单公式来说明LightGBM和XGBoost的关系:关于XGBoost的详细论述请看本系列的第九篇文章——(九)XGBoost的原理、具体实例、代码实现XGBoost与GBDT比较大的不同就是目标函数的定义,基本思想是一致的,同样是利用加法模型与前向分步算法实现学习的优化过程。yi∑k1Kfkxiyik1∑Kfkxi其中,fkf_kfk表示回归X树,K为回归树的数量。原创 2023-10-10 14:54:34 · 999 阅读 · 1 评论 -
(九)XGBoost的原理、具体实例、代码实现
XGBoost,全称eXtreme Gradient Boosting ,简称XGB,是GBDT算法的一种变种,是一种监督算法;它是boost算法的一种,也属于集成算法,是一种伸缩性强、便捷的可并行构建模型的Gradient Boosting算法。其高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中。并取得了不错的成绩。它可用于分类,回归,排序问题。原创 2023-10-10 11:56:28 · 7168 阅读 · 1 评论 -
(八)GBDT为什么拟合负梯度(拟合残差?)
以GBDT求解回归任务为例子,每次迭代,修改y值为损失函数(目标函数)的负梯度(或者叫残差,因为和残差的表达式一样,这是个巧合),问题是为什么要把y值修改为负梯度(残差),也就是为什么拟合负梯度(残差)原创 2023-09-24 11:49:21 · 221 阅读 · 1 评论 -
(一)线性回归(LinearRegression)原理和代码实现
就是样本的似然函数,转化为数学中求解θ最大似然估计值的问题,即:最大似然估计法(这里有兴趣的可以去补习数学上这块的知识,不想学习,可以只看下面的求解过程能看懂就行)到此最小二乘法,求解θ得过程讲解完毕,最小二乘法得缺陷也很明显了,首先要求X^TX是可逆的,为了防止不可逆,做如下更改,之间的误差(机器学习不能求解到百分百准确的θ值,只能使得ξ^i值不断减小,也就是让预测值不断的逼近真实值y。求解J(θ)的最小值,可以采用求解导函数,并使导函数为0的方式实现。,假设是独立同分布的,服从均值为0,方差为。原创 2023-09-21 11:08:04 · 125 阅读 · 0 评论 -
(八)GBDT的原理、具体实例、代码实现
(八)GBDT本系列重点在浅显易懂,快速上手。不进行过多的理论讲解:也就是不去深究what,而是关注how。全文围绕以下三个问题展开:1)长什么样?2)解决什么问题?3)怎么实现? 3.1)从数学讲,原理 3.2)从代码上讲,如何掉包实现1 长什么样GBDT=Gradient Boosting+CART树gradient boosting decision tree 梯度提升决策树,有多个若学习器组成,弱学习器的通常是层数较少的CART回归树,单个弱学习器,因层数叫浅,所以偏差较大原创 2023-09-04 23:13:23 · 300 阅读 · 1 评论 -
(八)GBDT的原理及实现
本系列重点在浅显易懂,快速上手。不进行过多的理论讲解:也就是不去深究what,而是关注how。全文围绕以下三个问题展开:1)长什么样?2)解决什么问题?3)怎么实现? 3.1)从数学讲,原理 3.2)从代码上讲,如何掉包实现。原创 2023-08-29 22:16:33 · 80 阅读 · 1 评论 -
(六)集成算法
集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error rate < 0.5);集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法也能够得到一个比较明显的性能提升。关于偏差和方差随模型复杂度变化,模型过于复杂,阶数抬高,容易过拟合,预测方差比较大。我们要找的是预测错误率最低的模型,而不是方差或者偏差小的。原创 2023-08-06 21:46:11 · 57 阅读 · 1 评论 -
(七)随机森林(RandomForest)的原理和实现
本系列重点在浅显易懂,快速上手。不进行过多的理论讲解:也就是不去深究what,而是关注how。全文围绕以下三个问题展开:1)长什么样?2)解决什么问题?3)怎么实现? 3.1)从数学讲,原理 3.2)从代码上讲,如何掉包实现。原创 2023-08-03 22:32:34 · 240 阅读 · 0 评论 -
(五)决策树(DecisionTrees)的原理和实现
本系列重点在浅显易懂,快速上手。不进行过多的理论讲解:也就是不去深究what,而是关注how。全文围绕以下三个问题展开:1)长什么样?2)解决什么问题?3)怎么实现? 3.1)从数学讲,原理 3.2)从代码上讲,如何掉包实现。原创 2023-08-03 22:28:53 · 74 阅读 · 0 评论 -
(四)LI和L2正则
图解了L1和L2正则,原创 2023-08-01 06:19:09 · 47 阅读 · 1 评论 -
(三)Softmax的原理及代码实现
讲解了softmax的原理和代码实现,适合初学者原创 2023-07-30 23:22:09 · 252 阅读 · 1 评论 -
(二)逻辑回归(LogisticRegression)原理及代码实现
介绍了逻辑回归的原理和代码实现,适合初学者快速上手原创 2023-07-29 22:55:20 · 150 阅读 · 0 评论 -
(一)线性回归(LinearRegression)原理和代码实现
讲解了线性回归的原理和手动代码以及掉包代码实现原创 2023-07-29 22:49:04 · 156 阅读 · 0 评论