
夯实-机器学习
_吟游诗人
在昨天的未来里活成回忆
展开
-
神经网络权重为什么不能初始化为0,而线性回归和LR可以?
线性回归基本可以是LR的简化版(论证思路上),因此本文将主要探讨两个问题:1. 为什么LR可以将权重初始化为0?2. 为什么神经网络不能将权重初始化为0?本文参考资料:https://zhuanlan.zhihu.com/p/75879624为什么LR可以将权重初始化为0?为什么神经网络不能将参数初始化为0?以下图为例:情况1:w和b都初始化为0那么由于反向传播的公式,从上图一个简单反向传播可以看出,每一轮参数更新只能从后往前更新一层的参数。这且不管,而且由于初始化参数完全相同,那么上上图原创 2021-03-20 21:59:32 · 4270 阅读 · 0 评论 -
卷积和池化后的特征图维度计算方式
卷积和池化都有如下几个参数:原始数据维度input_shape,卷积核大小kernel_size / 池化尺寸大小 pool_size,步长strides,填充padding=[‘same’, ‘valid’]。padding为valid如果padding为valid,那么不进行填充。在这种情况下,无论是卷积还是池化(池化将下面的kernel_size改为pool_size即可)的特征图的维度都是:input_shape−kernel_sizestrides+1\frac{input\_shape -原创 2021-03-14 17:04:38 · 2598 阅读 · 0 评论 -
深度学习优化器大总结:GD、SGD、Momentum、Nesterov Momentum、AdaGrad、RMSProp、Adam、牛顿法
参考资料:https://www.bilibili.com/video/BV1aK411n7Du?t=670原创 2021-03-09 10:55:21 · 328 阅读 · 0 评论 -
手撕SVM
序SVM是一种二分类模型,其学习策略为间隔最大化,也等价于“正则化的合页损失函数”最小化。SVM可分为以下三种类型:• 线性可分支持向量机:硬间隔• 线性支持向量机:软间隔• 非线性支持向量机:核函数本文将对以上三种类型的SVM做详细解释与推导,还将介绍一种快速学习算法:序列最小最优化算法(SMO)。线性可分支持向量机这是SVM最基本形式,其要求所提供的所有样本,必然线性可分。假设分类决策函数为f(x)=sign(w∗⋅x+b∗)f(x)=sign(w^*\cdot x+b^*)f(x)=原创 2021-03-02 15:21:46 · 255 阅读 · 0 评论 -
EM算法
参考资料:https://zhuanlan.zhihu.com/p/78311644https://zhuanlan.zhihu.com/p/36331115前置内容:先读参考资料2到2.2之前,再读完参考资料1,再读完参考资料2。公式推导:总结EM算法分成E步和M步,其中E步固定模型参数,以确定隐含数据的分布,从而建立似然函数下界,而M步则寻找模型参数以最大化似然下界。每次更新后,似然函数值都会变大,因此模型一定会收敛。但由于模型非凸,存在许多极值点,因此不一定能收敛到全局最优。如原创 2021-02-16 11:32:53 · 219 阅读 · 0 评论 -
一文彻底看懂LightGBM
本文适合有集成学习与XGBoost基础的读者了解LightGBM算法。序LightGBM是基于XGBoost的改进版,在处理样本量大、特征纬度高的数据时,XGBoost效率和可扩展性也不够理想,因为其在对树节点分裂时,需要扫描每一个特征的每一个特征值来寻找最优切分点,耗时较大。而LightGBM则提出了GOSS(Gradient-based One-Side Sampling,基于梯度的单边采样)和EFB(Exclusive Feature Bundling,互斥特征捆绑)来分别进行样本采样和降低特征维原创 2021-01-31 16:11:51 · 2428 阅读 · 0 评论 -
过拟合、欠拟合
过拟合是指在训练集上误差小,测试集上误差大;欠拟合是指在训练集和测试集上误差都大。过拟合解决办法:• 增加训练数据(增加样本会降低模型方差)• 降低模型复杂度• 增加正则化参数• 采用集成学习• 使用dropout• 提前停止• BatchNormalization欠拟合解决办法:• 增加特征• 提高模型复杂度• 减小正则化系数过拟合,高方差,低偏差欠拟合,低方差,高偏差要搞清楚原因,只需了解清楚方差和偏差的概念:方差: 方差是描述模型每次输出结果与模型输出的期望之间的误差,原创 2021-01-27 21:24:39 · 622 阅读 · 0 评论 -
机器学习中的正则化
正则化介绍“正则化”可以通俗理解为“规则化”,即添加一些规则,对模型参数加以限制,以降低模型过拟合的风险。模型过拟合的一个显著原因是由于参数过多导致的,以一个线性回归模型为例:其中,由于w参数过多,使得模型复杂度高,则容易出现过拟合的现象。而w参数都是学习来的,因此正则化的思想是在损失函数中加入正则化项,对w参数加以限制,控制w参数的数量(即上例中n的数量)。即若使得wi为0的个数较多,则有效减少了模型参数数量和复杂度。加入正则化项前的损失函数被称为经验风险,加入正则化项后的损失函数被称为结构风险原创 2021-01-27 21:22:52 · 344 阅读 · 0 评论 -
基尼指数 Gini Index
基尼系数(Gini index)反映的是从数据集D中随机选取两个样本,其类别标记不一致的概率。因此,基尼系数越小,数据纯度越高。Gini(D)=1−∑k=1∣γ∣pk2.Gini(D)=1-\sum_{k=1}^{|\gamma|}{p_k^2}.Gini(D)=1−∑k=1∣γ∣pk2....原创 2021-01-27 21:16:35 · 3347 阅读 · 0 评论 -
信息增益率
信息增益率与信息增益有关。信息增益存在一个问题,即若某个属性可取值数目较多,如用ID来作为分类标准,则信息增益会非常高。然而,这显然不符合实际情况,模型进入了过拟合,且不能对新数据进行有效的分类。增益率则在考虑了该情况的前提下,提出了一个新的公式:Gain_ratio(D,a)=Gain(D,a)IV(a)IV(a)=−∑v=1V∣Dv∣∣D∣log2∣Dv∣∣D∣Gain\_ratio(D, a)=\frac{Gain(D, a)}{IV(a)}\\IV(a)=-\sum_{v=1}^{V}{\f原创 2021-01-27 21:15:34 · 525 阅读 · 0 评论 -
信息熵与信息增益
信息熵(information entropy)是度量样本集合纯度/不确定度最常用的指标之一。但要注意,信息熵越小,表示不确定度越低,确定度越高,纯度越高。Ent(D)=−∑k=1∣γ∣pklog2pkEnt(D)=-\sum_{k=1}^{|\gamma|}{p_klog_2p_k}Ent(D)=−∑k=1∣γ∣pklog2pk信息熵是对信息量的度量。越小概率的事情发生所产生的信息量越大。信息量的公式表示如下:h(x)=−log2p(x)h(x)=-log_2p(x)h(x)=−log2原创 2021-01-27 21:14:15 · 6231 阅读 · 0 评论 -
回归模型评价指标-SST、SSR、SSE、R-square
本文介绍了回归模型在模型选择上的常见评估指标:SST、SSR、SSE和R-square。SST:The sum of squares totalSSR:The sum of squares regressionSSE:The sum of squares errorSSTThe sum of squares total. SST是观测到的真实值与真实值的均值之间的差的平方和。∑i=1n(yi−y‾)2\sum_{i=1}^{n}{(y_i - \overline{y})^2}∑i=1n(yi原创 2021-01-27 21:06:56 · 26054 阅读 · 5 评论 -
什么是包外估计?
包外估计(out-of-bag estimate)是用未在训练集中出现的测试数据来作出决策的方法。【西瓜书P179】包外样本有许多用途。例如当基学习器是决策树时,可使用包外样本来辅助剪枝,或者用于估计决策树中各节点的后验概率以辅助对零训练样本节点的处理,当基学习器是神经网络时,可以使用包外样本来辅助早期停止以减小过拟合风险。...原创 2021-01-27 20:58:10 · 2327 阅读 · 0 评论 -
机器学习模型的误差分析-逼近误差、泛化误差、优化误差
逼近误差模型最好能逼近真实模型到什么程度考虑target function和能从假设空间中学到的the best function的距离而已经证明一层隐藏层(+一层输出层)也能很好地拟合任何函数。XOR问题不能被单独一层网络解决。泛化误差泛化即推广能力。考虑在假设空间中的best function和可以从数据集中学到的best function之间的距离。优化误差因为优化问题带来的误差。即从能数据集中学到的best function和使用该算法从数据集中学到的best function之间原创 2021-01-27 20:56:30 · 3228 阅读 · 0 评论 -
AdaBoost公式推导及流程
本文参考众多资料,在此不进行罗列。下图为AdaBoost的公式推导下图为分类器权重α的推导公式原创 2021-01-27 20:51:04 · 240 阅读 · 0 评论 -
XGBoost公式推导
本文参考了网上较多资料综合而成,在此不进行罗列。原创 2021-01-27 20:48:10 · 177 阅读 · 1 评论 -
过拟合高方差,欠拟合高偏差
过拟合是指在训练集上误差小,测试集上误差大;欠拟合是指在训练集和测试集上误差都大。过拟合解决办法:增加训练数据降低模型复杂度增加正则化参数采用集成学习欠拟合解决办法:增加特征提高模型复杂度减小正则化系数过拟合,高方差,低偏差欠拟合,低方差,高偏差要搞清楚原因,只需了解清楚方差和偏差的概念:方差:方差是描述模型每次输出结果与模型输出的期望之间的误差,描述的是模型的稳定性,反映输出值的波动情况偏差:偏差描述模型输出结果与真实值之间的误差,描述模型的拟合程度...原创 2020-12-28 15:39:08 · 739 阅读 · 0 评论 -
决策树
申明,本部分内容参考了众多网上资料,如有侵权请联系删除。总体介绍决策树(decision tree) 是一种基本的分类与回归方法,利用树形结构进行决策。在进行决策过程中,通常会需要进行一系列的判断或“子决策”,而决策过程中提出的每个判定问题都是对某个属性的“测试”,每个测试的结果要么导出最终结论,要么导出进一步的判定问题。一般的,一颗树包含一个根节点、若干个内部节点和若干个叶节点。叶节点对应于决策结果,其他节点则对应于一个属性测试。决策树学习的目的是产生一颗泛化能力强,即处理未见示例能力强的决策树。原创 2020-12-20 18:31:43 · 608 阅读 · 0 评论 -
正则化Regularization
重点:目的:为了避免过拟合,降低模型的复杂度,符合奥卡姆剃刀原理使用条件:当且仅当模型表达能力过强,即有可能出现过拟合的情况下才使用使用方法:在之前的损失函数后面加上惩罚项常见类别:L1-正则化(LASSO)、L2-正则化(Ridge)附加知识:L-N范数注意区分:正则化Regularization和标准化Normalization的区别补充:无穷范数是指所有元素中最大值参考资料:线性回归——lasso回归和岭回归(ridge regression)机器学习------L1、L原创 2020-10-09 09:27:04 · 231 阅读 · 0 评论