机器学习
文章平均质量分 81
Mr_health
这个作者很懒,什么都没留下…
展开
-
机器学习优化算法:牛顿法以及海森矩阵
参考:海森矩阵和牛顿法 人工智能-损失函数-优化算法:牛顿法的背后原理【二阶泰勒展开】 牛顿法与Hessian矩阵给出一个总结:牛顿法法主要是为了解决非线性优化问题,其收敛速度比梯度下降速度更快。其需要解决的问题可以描述为:对于目标函数f(x),在无约束条件的情况下求它的最小值。牛顿法的主要思想是:在现有的极小值估计值的附近对做二阶泰勒展开,进而找到极小点的下一个估计值,反复迭代直到函数的一阶导数小于某个接近0的阀值。1. 求解方程的根我们............原创 2022-02-19 17:58:57 · 2852 阅读 · 0 评论 -
向量和矩阵的范数
1. 基本定义具体可以参考这篇文章:https://blog.csdn.net/qq_42138662/article/details/109258028对于我自己的理解,希望强调一下:向量的范数≠矩阵的范数2. 类比记忆L0范数:向量中非0元素的个数 L1范数:向量元素绝对值之和 L1损失函数: 多了求平均 L2范数:向量元素平方和再开方 L2损失函数: 少了开方 多了求平均 ..原创 2022-02-19 16:54:57 · 1257 阅读 · 0 评论 -
导数、偏导数以及梯度
导数导数的概念和运用可以说是贯穿了我们自初中以来的所有数学知识。当自变量x和因变量y都是一维且定义域和值域都为实数域的情况下,因变量y导数的定义如下:可以这么理解,对于某一点(自变量),当它改变dx的时候,对应的y(因变量)的改变量dy就可以根据导数f'(x)计算出来:dy = f'(x) * dx。曲线上某点的导数 = 过该点切线的斜率。需要澄清的一个概念是: 虽然导数有正有负,它仍然是一个标量偏导数偏导数则是在因变量为一元,自变量为多元的情况下,因变量关于各个自变量单独求导的原创 2022-01-26 14:42:58 · 2580 阅读 · 0 评论 -
方差与协方差
协方差矩阵在统计学和机器学习中随处可见,一般而言,可视作方差和协方差两部分组成,即方差构成了对角线上的元素,协方差构成了非对角线上的元素。本文旨在从几何角度介绍我们所熟知的协方差矩阵。1. 方差和协方差的定义在统计学中,方差是用来度量单个随机变量的离散程度,而协方差则一般用来刻画两个随机变量的相似程度,其中,方差的计算公式如下:其中,正在上传…重新上传取消正在上传…重新上传取消正在上传…重新上传取消表示样本量,符号表示观测样本的均值,这个定义在初中阶段就已经开始接触了。...原创 2021-01-19 19:09:08 · 12860 阅读 · 0 评论 -
如何理解“机器学习”中的数据分布
机器学习中的“分布”原创 2020-09-07 17:07:48 · 2828 阅读 · 0 评论 -
【机器学习】分别从极大似然和熵的角度来看交叉熵损失
从极大似然的角度 从熵的角度 假设样本为X,其对应的类别为Y,P(Y|X)就是给定X判断为Y的后验概率。我们希望每一个样本X被正确预测到相应类别Y的概率都最大,即max P(Y|X),那么所有样本正确预测概率相乘最大化就是我们所期望的,因此采用极大似然的原理 Step1:构...原创 2020-07-28 00:38:58 · 448 阅读 · 0 评论 -
【机器学习】判别模型vs生成模型、概率模型vs非概率模型
参考:生成模型 VS 判别模型 (含义、区别、对应经典算法) 机器学习“判定模型”和“生成模型”有什么区别?判别模型和生成模型的区别,主要在于概率分布。对于一堆样本数据,第i个样本的特征为Xi(特征维度可以是j),对应的分类标记为Yi,则:判别模型:学习到条件概率分布P(Y|X),即在特征X出现的情况下标记Y出现的概率,是后验概率。判别式模型求得P(Y|X),对于一个样本的特征X,根据P(Y|X)可以求得标记Y,即可以直接判别出来样本的类别,如下图的左边所示,实际是就是...原创 2020-07-26 17:31:05 · 5267 阅读 · 0 评论 -
【机器学习】贝叶斯分类器与朴素贝叶斯
贝叶斯分类器在介绍贝叶斯分类器之前,首先需要知道先验概率、后验概率以及全概率的相关概念及计算公式,这里不再赘述。(1)贝叶斯公式的一般形式 这个公式用于计算A发生情况下,B发生的概率,往往A是结果,B是可能导致这一结果的某一因素。(2)对于分类问题的贝叶斯公式我们可以将上述一般形式下的贝叶斯公式看成如下: ...原创 2020-07-23 19:03:58 · 1503 阅读 · 0 评论 -
【概率论】极大似然估计和最大后验估计
目录1.概率模型和非概率模型1.1 非概率模型1.1 概率模型2 频率学派和贝叶斯学派2.1 频率学派2.2 贝叶斯学派3. 极大似然估计3.1 什么是极大似然估计3.2 极大似然原理及数学表示3.3 极大似然估计法(Maximum Likelihood Estimation,MLE)3.4 极大似然估计法求估计值的步骤3.5 例题1.概率模型和非概率模型要介绍极大似然估计和最大后验估计,就要先从概率模型和非概率模型说起。极大似然估计和最大后验估计都.原创 2020-07-23 14:45:44 · 9646 阅读 · 1 评论 -
【神经网络】神经元模型和感知器
神经元模型在生物神经网络中,每个神经元与其他神经元相连,当它“兴奋”时,就会向相连的神经元发送化学物质,从而改变这些神经元内的电位。如果某神经元的电位超过了一个“阈值”,那么它就会被激活,即“兴奋”起来。1943年,心理学家McCulloch和数学家Pitts提出了第一个抽象的神经元模型,称为MP模型。MP模型是人工神经网络的基本单元,如下图所示:其中,向量是神经元模型的输入,为第i个神经元到第n个神经元的输出。是与输入相对应权值。在输入和神经元之间通常还有一个偏置(图上未画),这里记为b,原创 2020-07-22 17:17:04 · 4318 阅读 · 0 评论 -
【机器学习】梯度弥散
这里C(w)为最后的代价函数,它权值w的函数。每一层的加权输入为ZJ=W×aj-1+b。每一层的输出为aj,aj=φ(ZJ),这里φ是激活函数。反向传播更新的是每一层神经元连接的权重w,即求C(w)对每一层w 的偏导数。反向传播首先求C对W4的偏导数,所以公式为:同理,由于W3只能通过加权输入Z3在影响结果,所以公式为:可以看出在更新权值的时候,每向前传播一层,就要乘以激活...原创 2018-12-01 10:40:42 · 1170 阅读 · 0 评论 -
【机器学习】偏差、方差以及其与过拟合、欠拟合的关系
参考:欠拟合和过拟合的一般解决方法 偏差与方差,欠拟合与过拟合过拟合指的是模型在训练数据中表现得过于优越,而在测试集中表现不佳的现象。也就是说模型学习到了很多不必要的特征(比如噪声),泛化能力差。产生过拟合的原因:模型复杂 训练数据少 输入过多的变量(特征) 数据噪声大(使得模型学习到噪声特征)解决过拟合的方法:数据扩增 交叉验证 增加正则化...原创 2019-10-28 17:37:41 · 2236 阅读 · 0 评论 -
【机器学习】信息熵与数据分布的距离度量方法
机器学习中,绕不开的一个概念就是熵 (Entropy),信息熵。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。在决策树的生成过程中,就使用了熵来作为样本最优属性划分的判据。下面按照本人的理解来系统梳理一下有关熵的概念。1 信息量信息量即信息多少的度量。公式表达如下:即如果事件概率越大,该携带的信息量越小;事件概率越小,该...原创 2020-07-27 17:03:14 · 3507 阅读 · 1 评论 -
ROC曲线、P-R曲线以及mAP
P-R曲线P-R曲线,全称时precision-recall,纵轴为查准率(precision),横轴为查全率(recall)。查准率的计算公式如下,表示所有预测为正例的数据中,真正例所占的比例,公式如下:。查全率是指预测为真正例的数据占所有正例数据的比:查准率和查全率是一对矛盾的度量,一般来说,precision高时,recall往往偏低,recall高时,precision往往偏低。可以这么理解,我们通过降低阈值thresh,可以有效增加TP,进而提升recall值,但是同时原创 2019-07-20 16:43:28 · 3195 阅读 · 0 评论 -
PCA原理
转载于:PCA的数学原理参考: 特征值和特征向量目录向量的表示及基变换内积与投影基基变换的矩阵表示协方差矩阵及优化目标方差协方差协方差矩阵协方差矩阵对角化PCA算法步骤要了解PCA降维的原理就要从矩阵变换说起向量的表示及基变换既然我们面对的数据被抽象为一组向量,那么下面有必要研究一些向量的数学性质。而这些数学性质将成为后续导出PC...原创 2019-07-16 13:41:14 · 315 阅读 · 0 评论 -
L1和L2正则化
.原创 2019-07-11 21:09:30 · 1991 阅读 · 0 评论 -
【机器学习】数据归一化与标准化
转载:https://www.jianshu.com/p/3761bad01053一.为什么要数据归一化和标准化对于大多数的机器学习算法和优化算法来说,将特征值缩放到相同区间可以使得获取性能更好的模型。就梯度下降算法而言,例如有两个不同的特征,第一个特征的取值范围为1-10,第二个特征的取值范围为1-10000。在梯度下降算法中,代价函数为最小平方误差函数,所以在使用梯度下降算法的时候,算......转载 2019-06-20 10:39:49 · 383 阅读 · 0 评论 -
【集成学习】:bagging和boosting算法及对比
转载于:bagging和boosting算法(集成学习算法) Bagging算法和Boosting区别和联系 机器学习笔记-集成学习之Bagging,Boosting,随机森林三者特性对比前言 集成学习定义:集成学习通过构建并结合多个学习器来完成学习任务。分类:只包含同种类型的个体学习器,这样的集成是“同质”的,例如都...原创 2019-06-20 21:23:19 · 6497 阅读 · 0 评论 -
【机器学习】参数模型和非参数模型
转载于机器学习中参数模型和非参数模型理解参数模型和非参数模型定义非参数模型(non-parametric model)和参数模型(parametric model)作为数理统计学中的概念,现在也常用于机器学习领域中。在统计学中:参数模型通常假设总体服从某个分布,这个分布可以由一些参数确定,如正态分布由均值和标准差确定,在此基础上构建的模型称为参数模型;非参数模型对于总体的分布不做任...转载 2020-07-22 20:04:37 · 3516 阅读 · 0 评论 -
【boosting算法】adaboost原理
参考AdaBoost原理详解Adaboost 算法介绍(针对算法面试)手把手教你实现一个 AdaBoost机器学习笔记:AdaBoost 公式推导目录1.AdaBoost原理1.1训练当前迭代最优弱分类器1.2计算最优弱分类器的权重1.3根据错误率更新样本权重2.公式推导2.1 α和的推导2.2 权重更新公式相关面试题1.AdaBoost原理...原创 2019-06-27 13:53:02 · 1178 阅读 · 0 评论 -
【机器学习】经验风险、期望风险与结构风险之间的关系
转载于:机器学习-->期望风险、经验风险与结构风险之间的关系在机器学习中,通常会遇到期望风险、经验风险和结构风险这三个概念,要区分这三个概念,首先要引入一个损失函数的概念。损失函数是期望风险、经验风险和结构风险的基础。损失函数损失函数是针对单个具体的样本而言的。表示的是模型预测的值与样本真实值之间的差距。常见的损失函数见我的另一个博客常见的损失函数经验风险那么如果想知...转载 2020-07-21 22:41:45 · 613 阅读 · 0 评论 -
【集成学习】随机森林原理
目录1. 介绍2. 特征选择2.1 袋外错误率(oob error)2.2 特征重要性2.3 特征选择3. 优缺点3.1 优点3.2 缺点1. 介绍随机森林(Random Forest,RF)是典型的bagging算法,顾名思义,森林就是由多个决策树构成的算法,其基学习器为CART决策树(换句话说,其实我们只是将使用CART决策树作为弱学习器的Bagging...原创 2019-07-13 15:49:42 · 1884 阅读 · 0 评论 -
【机器学习】优化算法
参考:机器学习常见的优化算法比较 最全的机器学习中的优化算法介绍目录1. 梯度下降算法1.1 随机梯度下降(SGD)1.2 动量优化法Momentum1.3 批量梯度下降(mini-batch SGD)2. AdaGrad算法3. RMSProp算法4. AdaDelta算法5. Adam算法6. 牛顿法1. 梯度下降算法........................原创 2019-10-28 17:37:55 · 5829 阅读 · 0 评论 -
提升树(boosting tree)
转载于:GBDT原理详解 统计学习方法--提升树模型(Boosting Tree)与梯度提升树(GBDT)提升树算法以决策树为基函数的提升方法为提升树,对分类问题决策树是二叉分类树,回归问题就是二叉回归树。(可以看出,决策树本来就可以用预分类或者是回归)提升树模型为加法模型,采用前向分步算法训练。所谓加法模型就是强分类器可以由多个弱分类器线性相加,...转载 2019-06-30 17:02:22 · 2676 阅读 · 0 评论 -
【机器学习】逻辑回归原理
目录1、分类和回归2、逻辑回归3、推导逻辑回归3.1 从手推线性回归开始3.2 逻辑回归代价函数3.3 逻辑回归推导4、例子参考:手推逻辑回归--面试前拯救一下 手推记录-logistic regression (逻辑斯蒂回归)1、分类和回归 回归(Regression)和分类(Classification)是机器学习中...原创 2018-12-02 21:49:43 · 600 阅读 · 0 评论 -
【机器学习】决策树
目录1、简介2、分类决策树构建2.1.特征选择信息熵信息增益增益率基尼指数2.2.决策树生成ID3C4.52.3.剪枝3、回归决策树的构建一个简单的例子1、简介决策树分为分类决策树和回归决策树,前者可用于处理离散型数据,后者可用于处理连续型数据。分类决策树的代表方法为:ID3算法:以信息增益为准则来生成树 C4.5算法:...原创 2019-06-30 21:17:44 · 1153 阅读 · 0 评论 -
LDA原理
参考:LDA原理基本原理 LDA的全称是Linear Discriminant Analysis,即线性判别分析,是一种经典的降维方法,LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方差最小,类间方差最大”。什么意思呢? 我们要将数据在低维...原创 2020-07-21 18:00:31 · 2941 阅读 · 0 评论 -
【机器学习】常见的损失函数
1. 损失函数、代价函数与目标函数损失函数(Loss Function):是定义在单个样本上的,是指一个样本的误差。 代价函数(Cost Function):是定义在整个训练集上的,是所有样本误差的平均,也就是所有损失函数值的平均。 目标函数(Object Function):是指最终需要优化的函数,一般来说是经验风险+结构风险,也就是(代价函数+正则化项)。从学习任务的类型出发,可以从...原创 2019-06-18 23:52:30 · 1577 阅读 · 0 评论