![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 65
Billie使劲学
这个作者很懒,什么都没留下…
展开
-
机器学习(第三章)—— 经典算法
经典算法:支持向量机、逻辑回归、决策树原创 2022-09-08 17:22:33 · 1121 阅读 · 0 评论 -
机器学习(第二章)—— 模型评估
模型评估,ROC(Receiver Operating Curve),AUC,P-R,AB测试,过拟合与欠拟合。原创 2022-09-06 09:09:51 · 2103 阅读 · 0 评论 -
(五)决策树
决策树是监督学习算法。下面为一些样本:本质上是一种特征去结果的相关度,比如你的信贷情况与能否还贷的相关度肯定高,而你有没有结婚的相关度肯定低。原创 2022-08-14 19:30:33 · 222 阅读 · 0 评论 -
(四)支持向量机(SVM)
如图所示为蓝红两类样本,SVM的工作就是找到一个超平面,可以使得这两类样本更好的分开,图中所示的红线就是SVM所求得的超平面,图中的虚线与超平面平行,d表示两类样本到超平面的距离,我们的目的就是最小化W。如下图所示,蓝色样本的y(类别标签)为-1,红色样本的y(类别标签)为1,对两个虚线方程进行一定的变换(如下图所示),则得到。上述我们所讲的题目都是可以直接用一条直线区分开,但是还有一些分类问题无法用直线区分开,如下图中的左图,圆内是一类,圆外是一类。对L求解w和b的梯度,求得L取最小值时的条件。.....原创 2022-08-14 19:07:05 · 1023 阅读 · 2 评论 -
(三)线性判别式分析LDA
我们的最终目的就是,最小化,最大化。我们构建下述公式,求 J 的最大值。其中求最大值我们应用的拉格朗日乘子。我们使得,则该方程变为Tu = λu,该问题就转变为特征值和特征向量的问题,从而得到 u 和 λ。......原创 2022-08-14 19:06:47 · 626 阅读 · 0 评论 -
(二)逻辑回归
线性回归得到的是一个拟合的曲线,而逻辑回归的结果是得到一个[0,1]的分类问题,本质上是个分类问题,它可以看做是线性回归的拓展,先进行一个线性回归,再在外面加一个激活函数函数。如图所示,从而根据这些散点拟合出一条曲线。生成模型:估计P(x,y)的联合概率分布。判别模型:输入x,估计条件概率分布。...原创 2022-08-13 18:53:48 · 153 阅读 · 0 评论 -
(一)贝叶斯统计
概率里面分为贝叶斯派和频率派,频率派估计出来的是一个固定的值,把参数当做一个常数;贝叶斯派则是求概率密度函数,把参数当做一个随机变量。频率派学习的准则就是极大似然估计,贝叶斯派则是最大后验估计。贝叶斯派不仅考虑当前的分布,也会考虑先验的分布(以前的经验)。上述公式中的花括号的中为极大似然估计。贝叶斯的应用:条件随机场。...原创 2022-08-13 18:09:29 · 1215 阅读 · 0 评论 -
数学基础(六)估计、偏差、方差
表现在参数的求解,而不是估计参数的区间。在机器学习中,我们比较关心的是。怎样来衡量估计的好坏呢?原创 2022-08-12 19:02:27 · 192 阅读 · 0 评论 -
数学基础(五)最优化理论(最优化,无约束,有约束,拉格朗日乘子的意义,KKT条件)
无约束优化问题十分普遍,如梯度下降法、牛顿法就是无约束的优化算法。像最小二乘法、极大似然估计,我们都是通过求导数等于0的方式求得极值,但是有的方程求导无法取得最优解,又当如何呢?.........原创 2022-08-10 13:14:36 · 3185 阅读 · 0 评论 -
数学基础(四)极大似然估计、误差的高斯分布与最小二乘估计的等价性
目录一、极大似然估计二、误差的高斯分布与最小二乘估计的等价性x表示概率,θ表示要估计的参数。我们定义一个极大似然函数,使这个函数最大。直接对求导比较麻烦,所以我们将似然函数转化成对数的形式,来求的最大值举个例子:高斯分布和样本如下所示: 定义对数似然函数:要求L的最大值,就需要求导。对u求偏导:这个u实际上就是样本均值。对σ求偏导: 实际上就是方差。x为n维的矩阵,y为实数。我们定义一个多元线性方程拟合误差为:为真实值,是拟合出来的值。 假设误差服从标准正态分布: 我们定义一个极大似然函数: 则最大化似然原创 2022-08-08 19:47:26 · 1750 阅读 · 0 评论 -
数学基础(三)PCA原理与推导
u向量的方向已经确定,我们将样本点映射到u向量上,显然右图的误差要比左图大许多,因此我们就需要先对样本进行中心化,使之分布于原点O附近。即计算所有样本点的均值(x的均值,y的均值),然后将每个样本点减去这个均值,就得到了中心化之后的样本。......原创 2022-08-08 19:00:09 · 1245 阅读 · 0 评论 -
数学基础(二)逆矩阵、伪逆矩阵、最小二乘解、最小范数解
举一个多元线性回归的例子:假设都为n维的行向量,N表示样本个数,y为实数。则得到到,其中,为向量中的n个值;就是要估计的参数。 将上式写成矩阵的形式就是我们的目的就是要解出参数a的列向量,则通过下式即可解出a向量。但是通常情况下样本量N并不等于每个样本的维度n,则求的最小值 对a求偏导,导数等于0处去最小值【有没有人知道求偏导后为什么是啊】移项得那么是否可逆呢?如果可逆,就可以通过求得a向量。下面判断是否可逆,当时,有两种情况,N>n 和 Nn其中,,,则 这个就是伪逆矩阵,当X可逆时,它就是......原创 2022-08-07 16:51:17 · 3512 阅读 · 0 评论 -
数学基础(一)矩阵对角化、SVD分解以及应用
我们仅用第一项就可以极大程度的表示B矩阵,第一项所需要的参数为保存u的100个参数及保存λ的一个参数,共计101个参数。如果k=10,即保留前10项,图像压缩效果如第一张所示,有点模糊,保留的越多,压缩后的图像与原图就越相近,越清晰。这样可能不是很好理解,我们假设Ax=y,其中A为m×n的矩阵,x为n×1的列向量,故y为m×1的列向量,其中P为n×n的矩阵,ui为n×1的列向量,A为除对角元素外都为0的对角矩阵。分母为维度较小的λ的和,分子为前k(k最大为不为零的λ的个数)项λ的和,其中。......原创 2022-08-07 15:19:12 · 2420 阅读 · 0 评论 -
实际工作中的高级技术(训练加速、推理加速、深度学习自适应、对抗神经网络)
针对训练数据过于庞大的对策,多GPU训练,加速生产模型的速度,可以认为是离线操作。我们主要看一下基于数据的并行,下面列出了三种并行方式①Model Average(模型平均)②SSGD(同步随机梯度下降)③。.........原创 2022-08-03 20:08:05 · 1437 阅读 · 11 评论 -
机器学习(第一章)—— 特征工程
特征工程就是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂志和冗余,设计更高效的特征以刻画求解的问题与模型预测之间的关系。...原创 2022-08-02 16:47:46 · 1396 阅读 · 0 评论