![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 94
photographyCat
这个作者很懒,什么都没留下…
展开
-
机器学习基础 - 偏度、正态化以及 Box-Cox 变换
1 引言对于数据挖掘、机器学习中的很多算法,往往会假设变量服从正态分布。例如,在许多统计技术中,假定误差是正态分布的。这个假设使得能够构建置信区间并进行假设检验。因此,在数据预处理阶段会查看目标变量以及各个特征是否服从或接近正态分布,如果偏离就通过一定变换将该数据的分布正态化。一般来说,数据的直方图如果单峰并近似正态但看上去又有些扭曲,可以考虑正态化。比如整体看上去还是一个山峰,但可能峰顶很尖或者整座山往左/往右倾斜了。这些现象如何用数字量化呢?偏度(skewness)和峰度(Kurtosis)就是两个原创 2021-05-31 18:04:01 · 4094 阅读 · 1 评论 -
梯度下降法及其实现
梯度梯度实际上就是多变量微分的一般化。下面这个例子:我们可以看到,梯度就是分别对每个变量进行微分,然后用逗号分割开,梯度是用<>包括起来,说明梯度其实一个向量。梯度是微积分中一个很重要的概念,之前提到过梯度的意义在单变量的函数中,梯度其实就是函数的微分,代表着函数在某个给定点的切线的斜率在多变量函数中,梯度是一个向量,向量有方向,梯度的方向就指出了函数在给定点的上升最快的方向这也就说明了为什么我们需要千方百计的求取梯度!我们需要到达山底,就需要在每一步观测到此时最陡峭的地方,梯原创 2021-03-02 22:13:16 · 574 阅读 · 0 评论 -
决策树算法计算过程举例
一、ID3算法“信息熵”是度量样本集合不确定度(纯度)的最常用的指标。在我们的ID3算法中,我们采取信息增益这个量来作为纯度的度量。我们选取使得信息增益最大的特征进行分裂!信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某一个条件下,随机变量的复杂度(不确定度)。而我们的信息增益恰好是:信息熵-条件熵。•当前样本集合 D 中第 k 类样本所占的比例为 pk ,则 D 的信息熵定义为•离散属性 a 有 V 个可能的取值 {a1,a2,…,aV};样本集合中,属性 a 上取值为 av 的样本集原创 2020-05-11 14:40:33 · 10194 阅读 · 0 评论 -
混淆矩阵、ROC曲线,AUC值,K-S曲线
数据分析与挖掘体系位置混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于分类型的数据模型,如分类树(Classification Tree)、逻辑回归(Logistic Regression)、线性判别分析(Linear Discriminant Analysis)等方法。在分类型模型评判的指标中,常见的方法有如下四种:...原创 2020-04-08 17:49:09 · 1184 阅读 · 0 评论 -
推荐中相似度计算问题(选择与总结)
《Dataminingguide》书阅读,第二章 推荐系统入门1、 曼哈顿距离最简单的距离计算方式。在二维计算模型中,每个人都可以用(X,Y)的点来表示。例如(X1,Y1)来表示艾米,(X2,Y2)来表示另一位人,那么他们之间的曼哈顿距离就是:|X1-X2|+|Y1-Y2|也就是x之差的绝对值加上y之差的绝对值。曼哈顿距离的优点之一就是计算速度快,对于Facebook这样需要计算百万用户...原创 2019-12-20 09:30:28 · 990 阅读 · 0 评论 -
SVD(奇异值分解)
1、特征值分解(EVD)实对称矩阵在理角奇异值分解之前,需要先回顾一下特征值分解,如果矩阵A是一个m×m的实对称矩阵(即A=AT),那么它可以被分解成如下的形式其中Q为标准正交阵,即有QQT=I,Σ为对角矩阵,且上面的矩阵的维度均为m×m。λi 称为特征值,qi 是Q(特征矩阵)中的列向量,称为特征向量。注:I在这里表示单位阵,有时候也用E表示单位阵。式(1-1)的具体求解过程就...原创 2019-12-11 20:38:25 · 218 阅读 · 0 评论 -
特征值和特征向量的作用
本文转自知乎大牛。从定义出发,Ax=cx:A为矩阵,c为特征值,x为特征向量。矩阵A乘以x表示,对向量x进行一次转换(旋转或拉伸)(是一种线性转换),而该转换的效果为常数c乘以向量x(即只进行拉伸)。我们通常求特征值和特征向量即为求出该矩阵能使哪些向量(当然是特征向量)只发生拉伸,使其发生拉伸的程度如何(特征值大小)。这样做的意义在于,看清一个矩阵在那些方面能产生最大的效果(power),并...转载 2019-12-11 20:06:20 · 1572 阅读 · 0 评论 -
机器学习-正规方程
吴恩达机器学习笔记系列一、什么是正规方程梯度下降法计算参数最优解,过程是对代价函数的每个参数求偏导,通过迭代算法一步步更新,直到收敛到全局最小值,从而得到最优参数。正规方程是一次性求得最优解。思想:对于一个简单函数,对参数求导,将其值置为0,就得到参数的值。像下面这样:现实例子有很多参数,我们要对这些参数都求偏导数,得到各个参数的最优解,也就是全局最优解。但是困难在于,这样做非常浪费时...原创 2019-10-31 16:36:27 · 912 阅读 · 0 评论