![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
再见鲁鲁修
biubiubiu
展开
-
决策树
这是我的第一篇博客,后续会将所有的机器学习模型都逐步写下来,谢谢关注决策树是一种基本的分类与回归的方法特征选择介绍:特征选择在于选择对训练数据具有分类能力的特征,这样可以提高决策树学习效率。通常特征选择的准则是信息增益和信息增益比,gini指数。前提知识介绍:熵:熵(entropy)是表示随机变量不确定性的度量公式(1) ...原创 2019-04-20 21:13:20 · 522 阅读 · 0 评论 -
sklearn中的交叉验证(Cross-Validation)
https://blog.csdn.net/xiaodongxiexie/article/details/71915259转载 2019-05-20 17:11:46 · 231 阅读 · 0 评论 -
准确率、精确率、召回率、F1值、ROC/AUC
https://blog.csdn.net/u013063099/article/details/80964865转载 2019-05-12 11:08:40 · 527 阅读 · 0 评论 -
方差,协方差
在机器学习PCA,ARIMA中涉及到了方差var和协方差cov,这里简单总结下。首先:均值,样本方差,样本协方差的公式为:均值: 方差:样本方差:样本协方差 :首先我们应该清楚的区分两个概念,即方差和样本方差的无偏估计:方差公式中分母上是N;样本方差无偏估计公式中分母上是N-1 (N为样本个数)。其中样本方差公式中为什么...原创 2019-05-18 18:10:46 · 600 阅读 · 0 评论 -
关于机器学习集成算法
2019年8月24开始跟新决策树(decesion tree)https://blog.csdn.net/HUNXIAOYI561/article/details/89406610(决策树)随机森林(RF)https://blog.csdn.net/qq547276542/article/details/78304454(随机森林)adaboostadaboost+决策树...原创 2019-09-03 17:43:18 · 178 阅读 · 0 评论 -
协同过滤推荐算法总结
https://blog.csdn.net/u011095110/article/details/84403564原创 2019-08-17 21:37:12 · 293 阅读 · 0 评论 -
机器学习常见的损失函数
https://blog.csdn.net/heyongluoyao8/article/details/52462400原创 2019-08-17 23:22:30 · 198 阅读 · 0 评论 -
机器学习的归一化和标准化
一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?很多同学并未搞清楚,维基百科给出的解释:1)归一化后加快了梯度下降求最优解的速度, 主要是加快梯度下降法收敛速度。2)归一化有可能提高精度。下面我简单扩展解释下这两点。1.归一化有两种实现方法:(1)常用的方法是通过对原始数据进行线性变换把数据映射到[0,...原创 2019-09-10 17:05:05 · 250 阅读 · 0 评论 -
支持向量机SMO算法
https://blog.csdn.net/willbkimps/article/details/54697698原创 2019-09-18 20:05:16 · 158 阅读 · 0 评论 -
交叉熵损失
https://blog.csdn.net/tsyccnh/article/details/79163834原创 2019-09-26 23:47:09 · 222 阅读 · 0 评论 -
逻辑回归
https://blog.csdn.net/jk123vip/article/details/80591619转载 2019-05-08 16:06:10 · 192 阅读 · 0 评论 -
提升树
Adaboost + 分类树 = 分类算法(分类提升树)回归树+前向分布算法+拟合残差 = 回归算法(回归提升树)回归树+前向分布算法+拟合梯度 = 回归算法(梯度提升树 GDBD)bagging +决策树 = 随机森林...原创 2019-04-28 11:45:02 · 137 阅读 · 0 评论 -
xgboost与gdbt
具体的xgboost可见:https://blog.csdn.net/a819825294/article/details/51206410链接1里面的盲点解释:目标函数把把这两个看成太勒展开的的x,看成。因为是常数,所以对当前迭代中可以省略掉。 对于 ,还是要遍历每个样本i的(遍历每个节点内的样本),其余都是遍历叶子节...转载 2019-05-04 18:07:33 · 218 阅读 · 0 评论 -
K近邻算法
knn(k_nearest neighbor)是一种基本的分类与回归方法。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。而KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。由于两者区别不大,虽然本文主要是讲解KNN的分类方法,knn算法的三要素是:k值的选择,距离度量,分类决策规则k近邻算...原创 2019-05-05 16:03:43 · 245 阅读 · 0 评论 -
K-mean
k-均值是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其质心,即簇中所有的中心来描述。K-均值算法的工作流程是这样子的:首先,随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中,具体来讲,为每个点找距其最近的质心,并将其分配给该质心所对应的簇。这一步完成之后,每个簇的质心更新为该簇所有点的平均值。上述过程的伪代码如下:创建k个点作为起始质心(经常是随机...转载 2019-05-05 17:30:16 · 780 阅读 · 0 评论 -
softmax
可以参考:https://blog.csdn.net/qian99/article/details/78046329第一篇博客中将损失函数定义为下面的会更加容易理解:将 定义成: 或者: 关于损失函数的求导问题:损失函数的求导目标是 : ...原创 2019-05-08 16:03:41 · 711 阅读 · 0 评论 -
Adaboost
原理介绍:(1)初始化训练数据(每个样本)的权值分布:如果有N个样本,则每一个训练的样本点最开始时都被赋予相同的权重:1/N。(2)训练弱分类器。具体训练过程中,如果某个样本已经被准确地分类,那么在构造下一个训练集中,它的权重就被降低;相反,如果某个样本点没有被准确地分类,那么它的权重就得到提高。同时,得到弱分类器对应的话语权。然后,更新权值后的样本集被用于训练下一个分类器,整个训练过程如...原创 2019-04-25 16:52:28 · 279 阅读 · 0 评论 -
AdaBoost、GBDT、RF、XGboost、lightGBM
AdaBoost简单介绍AdaBoost是基于boosting的思想,通过多个弱分类器的线性组合来得到强分类器,训练时重点关注被错分的样本,准确率高的弱分类器权重大。更深一步的介绍在训练过程中,它不改变所给的训练数据,而是不断改变训练数据权值的分布,使得被误分类的数据再后一轮的分类中受到更大的关注。同时采用加权多数表决的方法,加大分类误差率小的弱分类器的权值,使...原创 2019-04-25 17:12:50 · 383 阅读 · 0 评论 -
线性回归
1.假设函数 或者 预测函数:在一维特征空间,线性回归是通过学习一条直线,使得这条直线尽可能拟合所有已有的看到的点y,并且希望看到的(数据)也尽可能落落在这条线上(泛化能力),是预测值,y是实际值。 其中参数w0称为“偏置”,w1称为“权重”,x表示输入变量X的...原创 2019-05-06 11:11:32 · 206 阅读 · 0 评论 -
批量梯度下降,随机梯度下降,小批量梯度下降
https://www.cnblogs.com/lliuye/p/9451903.html转载 2019-05-08 16:06:26 · 311 阅读 · 0 评论 -
LDA
https://www.jianshu.com/p/3bbc97d05ab1线性判别方法(Linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法,在二分类问题上因为最早由(Fisher)提出,亦称为“Fisher判别分析”。 (严格说来LDA与Fisher判别分析稍有不同,前者假设了各类样本的协方差矩阵相同且满秩)。4.1.投影降维L...原创 2019-10-10 17:02:19 · 659 阅读 · 0 评论