机器学习
UESTC_20172222
向上的路,并不拥挤。 拥挤是因为,大部分人选择了安逸。
展开
-
【深度恶习】如何防止过拟合
防止过拟合自己这里总结一下什么是过拟合过拟合就是模型的泛化能力不好,我们训练出来的模型表现出低偏差,高方差。通常是由两个方面引起的 数据+模型复杂度解决办法出现这种情况:我们可以通过增加更多训练数据集,让模型看到更多的特征组合我们可以降低我们的模型的复杂度,也就是适当的减少一些参数同时我们还可以使用dropout,l2正则。在训练的时候,我们可以根据模型的在验证集的指标来判断是否...原创 2019-07-29 19:10:00 · 293 阅读 · 0 评论 -
【机器学习】分类时,使用平方损失搭配sigmoid激活函数出梯度消失现象
当sigmoid函数和MSE一起使用时会出现梯度消失。原因如下:(1)MSE对参数的偏导(2)corss-entropy对参数的偏导由上述公式可以看出,在使用MSE时,w、b的梯度均与sigmoid函数对z的偏导有关系,而sigmoid函数的偏导在自变量非常大或者非常小时,偏导数的值接近于零,这将导致w、b的梯度将不会变化,也就是出现所谓的梯度消失现象。而使用cross-entrop...原创 2019-05-23 11:10:09 · 1597 阅读 · 0 评论 -
【机器学习】 模拟退化
优化算法入门系列文章目录(更新中): 1. 模拟退火算法 2. 遗传算法 一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作...原创 2019-04-09 12:16:29 · 842 阅读 · 0 评论 -
【机器学习】最大似然估计,最大后验概率估计
最大似然估计(Maximum likelihood estimation, 简称MLE)和最大后验概率估计(Maximum a posteriori estimation, 简称MAP)是很常用的两种参数估计方法,如果不理解这两种方法的思路,很容易弄混它们。下文将详细说明MLE和MAP的思路与区别。但别急,我们先从概率和统计的区别讲起。概率和统计是一个东西吗?概率(probabilty)和...原创 2019-03-29 12:15:18 · 246 阅读 · 0 评论 -
【机器学习】L1和L2正则详解
正则化(Regularization)机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作 ℓ1ℓ1ℓ1ℓ1ℓ1 \ell_1ℓ1ℓ1ℓ1hθ(x)的表达式是...转载 2019-03-28 22:08:47 · 481 阅读 · 0 评论 -
【机器学习】xgboost 和GBDT的区别----还没有理解(需要继续学习)
2017.07.15更新:最近赞忽然多了起来,我猜是校招季来了吧。但如果面试官问你这个问题,我建议不要按我的回答来,背答案不如自己理解透了,况且我这是十分得五分的答案。最初的GBDT发展到现在的XGBoost,改进是一点一滴来的,是一篇篇论文的积累,很多方法并非XGBoost第一次提出,当然也不是说XGBoost没改进,可以说XGBoost把算法和系统实现都做得淋漓尽致。所以如果不是为了速成,不是...转载 2019-04-01 15:44:12 · 205 阅读 · 0 评论 -
【机器学习】分类时,为什么不使用均方误差而是使用交叉熵作为损失函数
MSE对于每一个输出的结果都非常看重,而交叉熵只对正确分类的结果看重当MSE和交叉熵同时应用到多分类场景下时,(标签的值为1时表示属于此分类,标签值为0时表示不属于此分类),**MSE对于每一个输出的结果都非常看重**,**而交叉熵只对正确分类的结果看重**。例如:在一个三分类模型中,模型的输出结果为(a,b,c),而真实的输出结果为(1,0,0),那么MSE与cross-entropy相对应的...原创 2019-05-23 11:23:35 · 3716 阅读 · 0 评论 -
【机器学习】k-means聚类中K该如何选择
最近做了一个数据挖掘的项目,挖掘过程中用到了K-means聚类方法,但是由于根据行业经验确定的聚类数过多并且并不一定是我们获取到数据的真实聚类数,所以,我们希望能从数据自身出发去确定真实的聚类数,也就是对数据而言的最佳聚类数。为此,我查...转载 2019-07-23 17:03:43 · 1206 阅读 · 0 评论 -
【深度学习】逻辑回归损失函数如果用平方损失有什么问题
特别无奈逻辑回归的损失函数为啥是交叉熵我的另一篇博客:逻辑回归为什么使用对数损失函数逻辑回归为啥不用平方损失原因很简单:就是会出现梯度消失问题,至于为啥看下面的这个推导(我真是无语!),其他的真的没啥说的了...原创 2019-09-06 10:53:31 · 2221 阅读 · 1 评论 -
【深度学习】L1和L2详解
reference来自这位大佬,这里只是为了学习使用,侵权请联系我删除转载 2019-09-02 16:00:59 · 1742 阅读 · 0 评论 -
【机器学习】浅谈凸优化
reference来自这位大佬转载 2019-08-11 09:37:54 · 326 阅读 · 0 评论 -
【机器学习】几种常见的概率分布
之前你已经了解概率的基础知识(如果还不知道概率能干啥,在生活中有哪些应用的例子,可以看我这个:人工智能时代,用概率思维发现人生机会www.zhihu.com今天我们来聊聊几种特殊的概率分布。这个知识目前来看,还没有人令我满意的答案,因为其他人多数是在举数学推导公式。我这个人是最讨厌数学公式的,但是这并不妨碍我用统计概率思维做很多事情。相比熟悉公式,我更想知道学的这个知识能用到什么地方。可惜,还没...原创 2019-08-10 10:49:20 · 4196 阅读 · 3 评论 -
【机器学习】逻辑回归为什么使用对数损失函数
reference来自这位大佬原创 2019-08-09 21:11:41 · 1894 阅读 · 0 评论 -
【机器学习】线性回归损失函数为什么要用平方形式
reference这位大佬写的真好,这里直接搬过来,真的值的看转载 2019-08-09 20:32:15 · 823 阅读 · 0 评论 -
【机器学习】偏差和方差的理解!非常值得推荐阅读!
目录:为什么会有偏差和方差?偏差、方差、噪声是什么?泛化误差、偏差和方差的关系?用图形解释偏差和方差。偏差、方差窘境。偏差、方差与过拟合、欠拟合的关系?偏差、方差与模型复杂度的关系?偏差、方差与bagging、boosting的关系?偏差、方差和K折交叉验证的关系?如何解决偏差、方差问题?1. 为什么会有偏差和方差?对学习算法除了通过实验估计其泛化性能之外,人们往往还希望了解它为什么具有这样的性能...转载 2019-07-23 11:43:44 · 862 阅读 · 1 评论 -
【深度学习】beam search过程以及优缺点
beamsearch 的过程Beamseach 是我们在生成任务中常用的技术,它是在测试的时候使用。过程:假设我们的单词表大小为50,我们设置的beam_size为5在生成第一个单词的时候,选择概率最大的5个单词,假设为a,b,c,d,e在生成第二个单词的时候,我们将第一步生成的5个单词和单词表中的每个单词进行组合,我们将得到5*50中组合,在这些组合中选择概率最高的5个重复上述过程,...原创 2019-07-29 19:42:53 · 2507 阅读 · 1 评论 -
【机器学习】SVD奇异值分解
这里给出一篇非常好的博客,方便自己以后查看感谢大佬,讲的简单易懂转载 2019-04-05 10:59:42 · 210 阅读 · 0 评论 -
【机器学习】LR和线性回归讲解,区别
前言 回归算法是一种通过最小化预测值与实际结果值之间的差距,而得到输入特征之间的最佳组合方式的一类算法。对于连续值预测有线性回归等,而对于离散值/类别预测,我们也可以把逻辑回归等也视作回归算法的一种。 线性回归与逻辑回归是机器学习中比较基础又很常用的内容。线性回归主要用来解决**连续值预测**的问题,逻辑回归用**来解决分类的问题**,输出的属于某个类别的概率...转载 2019-03-31 16:46:40 · 1187 阅读 · 0 评论 -
【机器学习】提升树,GBDT、Xgboost详解介绍
本文是我在阅读李航的《统计机器学习》中的笔记,和网上搜集的资料,主要是为了学习,如有侵权,请联系我删除原创 2019-02-22 19:52:29 · 245 阅读 · 0 评论 -
【机器学习】AdaBoost详解,基本覆盖所有的公式推倒,理论分析
原创 2019-02-22 11:35:43 · 294 阅读 · 0 评论 -
[机器学习] 神经网络-各大主流激活函数-优缺点
激活函数为什么要使用激活函数常用激活函数说明==sigmoid==优缺点优点缺点==tanh==优缺点优点缺点==ReLu==优缺点优点缺点==简单介绍Leakly ReLU函数====简单介绍ELU函数==参考说明为什么要使用激活函数在深度学习中,信号从一个神经元传入到下一层神经元之前是通过线性加权和来计算的,而进入下一层神经元需要经过非线性的激活函数,继续往下传递,如此循环下去。由于这些...原创 2018-12-29 19:40:43 · 2643 阅读 · 0 评论 -
GBDT(Gradient boosting Decision Tree)梯度提升决策树
以下几篇博客写的很好GBDT算法原理深入解析这位大佬后面讲了推导,让我明白了这段话:Gradient Boosting是一种Boosting的方法,其与传统的Boosting的区别是,每一次的计算是为了 **减少上一次的残差(residual) **,而为了消除残差,可以在残差减少的梯度(Gradient)方向上建立一个新的模型。所以说,在Gradient Boosting中,每个新的模型的...转载 2018-10-27 11:46:44 · 1286 阅读 · 0 评论 -
详解机器学习中的梯度消失、爆炸原因及其解决方法
写的真是太好了!记在这里方便自己以后查看详解机器学习中的梯度消失、爆炸原因及其解决方法转载 2019-02-18 11:35:13 · 156 阅读 · 0 评论 -
【机器学习】决策树详解
原创 2019-02-20 23:21:26 · 151 阅读 · 0 评论 -
Normalization:BN,LN,WN,CN详细讲解
这一篇很好的博客,为了防止作者删了 我将他转换成图片保存下来,如有侵权,请联系我删除转载 2019-03-07 22:47:17 · 405 阅读 · 0 评论 -
【机器学习】类别不平衡问题现象,如何处理
在分类中如何处理训练集中不平衡问题 在很多机器学习任务中,训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡,为了使得学习达到更好的效果,因此需要解决该类别不平衡问题。Jason Brownlee的回答:原文标题:8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset...转载 2019-03-31 15:53:40 · 2199 阅读 · 0 评论 -
【机器学习】精确率,召回率,F1
Precision 精确率(Precision)是指在所有系统判定的“真”的样本中,确实是真的的占比,就是TP/(TP+FP)。Recall 召回率(Recall)是指在所有确实为真的样本中,被判为的“真”的占比,就是TP/(TP+FN)。F1-Score ...原创 2019-03-31 15:50:39 · 402 阅读 · 0 评论 -
【机器学习】SVM与LR的区别
个人建议希望大家首先去深刻理解李航的《统计机器学习》这本书后再看看这篇博客,会有很深的理解!!!!!!正文相同点都是监督的分类算法都是线性分类方法 (我们这里假设不引入核函数)都是判别模型判别模型和生成模型 判别模型是直接生成一个表示P(Y|X)或者Y=f(X)的判别函数(或预测模型) 生成模型是先计算联合概率分布P(Y,X)P(Y,X)然后通过贝叶斯公式转化为条件概率。 SV...原创 2019-03-31 12:25:06 · 242 阅读 · 0 评论 -
【机器学习】LR如何实现多分类
对于选择softmax分类器还是个K 个 logistic分类器,取决于所有类别之间是否互斥。所有类别之间明显互斥用softmax分类器,所有类别之间不互斥有交叉的情况下最好用个logistic分类器。...原创 2019-03-30 22:25:03 · 1462 阅读 · 0 评论 -
【机器学习】信息量,熵,相对熵(KL),交叉熵
这位博主写的很好https://blog.csdn.net/rtygbwwwerr/article/details/50778098原创 2019-03-30 21:48:03 · 172 阅读 · 0 评论 -
【机器学习】PCA 主成分分析
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。当然我并不打算把文章写成纯数学文...转载 2019-03-23 17:11:20 · 426 阅读 · 6 评论 -
【机器学习】SVM(二)
线性可分支持向量机原创 2019-03-11 20:38:47 · 173 阅读 · 0 评论 -
【机器学习】SVM(一)
原创 2019-03-11 20:36:47 · 259 阅读 · 0 评论 -
拉格朗日对偶
这是我看李航的《统计机器学习》的学习笔记原创 2019-03-11 20:35:26 · 368 阅读 · 0 评论 -
特征缩放和标准化
首先简单讲一下:其实我觉得这两个本质上是一样的 看了好多博客和论坛 发现每个人讲的都不一样,我直接去英文维基百科 特征缩放上查了Feature scaling 和 英文维基百科 标准化 才基本上明白博客的最后 我会特别说一下 吴恩达老师在讲解PCA的时候 说的 均值标准化和特征缩放这里直接翻译过来特征缩放目的由于原始数据的值范围变化很大,在一些机器学习算法中,如果没有标准化,目标函...原创 2018-10-13 11:38:09 · 2741 阅读 · 0 评论