![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习入门
文章平均质量分 97
Donreen
大起大落,知足常乐
展开
-
集成模型(4)lightGBM主要原理及其python实现
lightGBM主要原理及其python实现1主要原理1.1GOSS,基于梯度的单边采样1.2EFB,互斥特征绑定1.3Leaf-wise的决策树生长策略1.4类别特征的处理2总结3.python实现前言:lightGBM主要流程和XgBoost比较相似,都是GBDT的一种改进,相对于XgBoost而言lightGBM则解决了大样本高纬度环境下耗时的问题。以及本文的实现代码主要用于算法核心的理解,文中不对的的地方也欢迎指正。1主要原理如前面所说,lightGBM在目标函数的优化上面和XgBoost的一原创 2020-12-20 10:58:25 · 1984 阅读 · 9 评论 -
集成模型(3)XgBoost主要原理及其python实现
XgBoost主要原理及其python实现1基本思想1.1目标函数的优化推导1.2内部节点分裂2.总结3.python实现3.1基学习器的实现3.2XgBoost回归器的实现3.3XgBoost分类器的实现前言:本文的实现代码主要用于算法理解,以及文中有错误的地方欢迎指出。1基本思想首先XgBoost也是一种提升树模型,相对于传统的GBDT做出了一些优化。在传统的GBDT中,当我们训练第t轮的模型时,我们是去拟合前t-1轮模型在数据集上的残差,以此来让我们的强学习器的预测值更加接近真实值。对于XgBo原创 2020-12-18 17:27:51 · 838 阅读 · 1 评论 -
集成模型(2)GBDT用于分类和回归及其python实现
GBDT用于分类和回归及其python实现1.GBDT回归1.1基本思想1.2算法流程:2.GBDT二分类2.1基本思想2.2算法流程2.3python实现2.3.1回归树2.3.2GBDT实现adaboost用于分类的时候其实是模型为加法模型,损失函数为指数损失函数的算法,用于回归的时候是是损失函数为平方误差的损失函数,但是当损失函数为一般损失函数的时候,优化会变得比较复杂,例如我们分类使用对数损失函数,那么前面我们求解基函数权值和样本更新权值的过程就会变得比较复杂,这时候提出了一种新的解决方案——GB原创 2020-12-03 20:14:47 · 1829 阅读 · 0 评论 -
集成学习(1)AdaBoost分别应用于分类和回归及其python实现
AdaBoost分别应用于分类和回归及其python实现1.AdaBoost分类的基本思路1.1Boosting基本思路1.2AdaBoost分类的基本思路1.3AdaBoost的算法步骤1.4AdaBoost算法的解释前言:近期在做比赛的时候建模阶段普遍都是使用集成模型效果更好,如xgboost、lgb、catboost等,但是对其中原理并不了解,所以准备从adaboost开始慢慢学习这一系列的集成模型…1.AdaBoost分类的基本思路集成模型主要有bagging和boosting两种,这里都是b原创 2020-12-03 14:47:26 · 4323 阅读 · 0 评论 -
朴素贝叶斯NaiveBayes以及python实现
朴素贝叶斯NaiveBayes以及python实现原创 2020-10-26 21:05:28 · 1563 阅读 · 0 评论 -
极大似然估计及其应用
极大似然估计及其应用欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2020-10-23 09:57:23 · 4732 阅读 · 0 评论 -
机器学习决策树DecisionTree以及python代码实现
机器学习决策树DecisionTree标题本文参考西瓜书以及mooc上面的视频…标题原创 2020-09-10 17:44:37 · 1188 阅读 · 0 评论 -
python数据分析及特征工程(实战)
python数据分析及特征工程(实战)1.数据分析1.1单属性分析1.2多属性分析2.特征工程2.1 数据清洗2.2 特征选择2.3 特征构造2.4 特征降维1.数据分析1.1单属性分析1.2多属性分析2.特征工程2.1 数据清洗2.2 特征选择2.3 特征构造2.4 特征降维...原创 2020-06-18 14:15:11 · 5145 阅读 · 2 评论 -
线性回归——岭回归、lasso、前向逐步回归
线性回归——岭回归、lasso、前向逐步回归1.岭回归2.lasso3.前向逐步回归接上一篇文章线性回归——局部加权线性回归,我们知道如何解决欠拟合,现在我们介绍一下当出现过拟合时我们怎么解决。解决过拟合我们可以增加训练集、可以减少特征、也可通过正则化。首先回顾一下我们的标准线性回归中我们的回归系数w=(XTX)−1XTyw=(X^TX)^{-1}X^Tyw=(XTX)−1XTy,因为其中涉...原创 2019-11-12 19:35:02 · 3612 阅读 · 0 评论 -
线性回归——局部加权线性回归
线性回归虽然简单,但是容易出现问题:就是“欠拟合”和“过拟合”,欠拟合是由于我们并不能很好的拟合我们的训练数据,导致出现较大的训练误差;而过拟合是由于我们过度拟合训练数据,导致我们的模型过度复杂而产生较大的测试误差。如下图所示:左边的图就是欠拟合,很明显我们用直线是无法很好的拟合训练数据的,最右边的就是产生了过拟合,中间的曲线就是比较好的。解决欠拟合我们可以增加额外的特征,或者增加多项式(如...原创 2019-11-12 11:42:57 · 3533 阅读 · 0 评论 -
线性回归——正规方程推导过程
线性回归——正规方程推导过程我们知道线性回归中除了利用梯度下降算法来求最优解之外,还可以通过正规方程的形式来求解。首先看到我们的线性回归模型:f(xi)=wTxif(x_i)=w^Tx_if(xi)=wTxi其中w=(w0w1...wn)w=\begin{pmatrix}w_0\\w_1\\...\\w_n\end{pmatrix}w=⎝⎜⎜⎛w0w1...wn⎠⎟⎟⎞,x...原创 2019-11-07 13:18:08 · 1872 阅读 · 2 评论 -
支持向量机SVM(4)——核函数
支持向量机SVM——核函数接前面所讲博客,我们知道了当数据理想线性可分的话我们可以用硬间隔的方式解决,即使出现了噪声,软间隔依旧能够处理,但是这些的前提都是数据是线性可分的,但是在现实任务中,原始样本空间可能并不是线性可分的,那么我们如何解决?对于这样的问题,可以将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。例如如下这种情况,一个“异或”的例子:首先回顾一下...原创 2019-11-07 11:01:12 · 1359 阅读 · 0 评论 -
支持向量机SVM(3)——软间隔
支持向量机SVM——软间隔接上一篇博客支持向量机SVM(2)——拉格朗日乘数法前面我们的问题假设数据处于理想状态,而现实情况是数据可能是线性不可分的,或者可分但是存在噪声。对于有噪声这种情况,如果我们还是使用前面的方法,那么就会把噪声也分类,就会存在过拟合的情况。解决这个问题的一个方法就是存于我们的超平面出一点点错,这也就是“软间隔”(soft margin),而前面我们所讲的就是“硬间隔”(...原创 2019-11-07 10:59:06 · 697 阅读 · 0 评论 -
机器学习实战——ROC曲线和AUC值
机器学习实战——ROC曲线和AUC值1.查准率(Precision)和召回率(Recall)2.ROC曲线3.AUC值近期在做机器学习实战上的项目时,讲解roc部分的代码没有理解,查阅相关博客资料后有所感悟理解,做下笔记记录一下。1.查准率(Precision)和召回率(Recall)通过一个例子来理解一下:我们现在需要判断一群病人中是否患有癌症。上表中1表示患有癌症,0则不患有癌症。“...原创 2019-11-06 17:01:01 · 1346 阅读 · 2 评论 -
支持向量机SVM(5)——SMO算法
支持向量机SVM——SMO算法接上一篇博客支持向量机SVM(2)——拉格朗日乘数法回顾前面所讲的,我们现在的问题变成了:{maxλ (−12∑i=1N∑j=1NλiλjyiyjxiTxj+∑i=1Nλi)s.t.0≤λi≤C∑i=1Nλiyi=0 \begin{cases}max_{\lambda}\;(-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\lambda...原创 2019-11-01 13:17:13 · 402 阅读 · 0 评论 -
支持向量机SVM(2)——拉格朗日乘数法
支持向量机SVM——拉格朗日乘数法1.拉格朗日函数这里我们主要探讨有条件约束情况下的目标函数优化(求极值)这类问题也称为条件极值。1.拉格朗日函数首先我们看到一个二元函数的例子:求函数z=f(x,y)z=f(x,y)z=f(x,y)在条件ϕ(x,y)=0\phi(x,y)=0ϕ(x,y)=0限制下的极值?消元法:设函数f(x,y)f(x,y)f(x,y),ϕ(x,y)\phi(x,y...原创 2019-10-30 14:29:06 · 2227 阅读 · 2 评论 -
支持向量机SVM(1)——间隔最大化
支持向量机SVM——间隔最大化1.什么是超平面2.为什么要间隔最大化3.如何实现间隔最大化主要参考西瓜书…1.什么是超平面相信了解过逻辑回归的都知道,我们对于n=2(特征为2个,这里只是方便可视化)是通拟合一条曲线,作为决策边界。那么如果特征n等于3、4 . . . 1000呢?这个时候我们我们就称这个用来分割不同类别的“线”称为超平面(hyperplane),这里的超我理解的就是多维的意...原创 2019-10-29 21:39:24 · 5533 阅读 · 2 评论 -
吴恩达机器学习——反向传播算法
吴恩达机器学习——反向传播算法推导反向传播算法中误差的计算过程:首先,这里没有使用线性回归中的平方差来计算,而是直接定义了δ(4)=a(4)−y,即预测值减去实际值\mathrm{首先,这里没有使用线性回归中的平方差来计算,而是直接定义了} \delta^{(4)}=a^{(4)}-y,{即预测值减去实际值}首先,这里没有使用线性回归中的平方差来计算,而是直接定义了δ(4)=a(4)−y,...原创 2019-10-15 19:14:58 · 2504 阅读 · 2 评论 -
吴恩达机器学习——逻辑回归的梯度下降推导过程
吴恩达机器学习——逻辑回归的代价函数简化推导过程这里就简单推导一下,为了简洁就把x和y右上角的i去掉了。推导过程:原创 2019-10-11 21:12:43 · 1042 阅读 · 2 评论