机器学习
文章平均质量分 94
机器学习
我想静静,
这个作者很懒,什么都没留下…
展开
-
聚类的评价指标NMI标准化互信息+python实现+sklearn调库
聚类的评价指标NMI标准化互信息+python实现+sklearn调库概念引例公式信息熵相对熵(relative entropy)互信息*归一化互信息(NMI)代码pythonsklearn概念标准化互信息(normalized Mutual Information, NMI)用于度量聚类结果的相似程度,是community detection的重要指标之一,其取值范围在[0 1]之间,值越大表示聚类结果越相近,且对于[1, 1, 1, 2] 和 [2, 2, 2, 1]的结果判断为相同引例对于6个原创 2021-03-05 10:41:11 · 10174 阅读 · 10 评论 -
线性回归、岭回归、lasso回归与逻辑回归LR
线性回归与逻辑回归LR线性回归应用场合求解最小二乘法梯度下降法加入正则化岭回归Ridge regressionlasso回归lasso regression逻辑回归LR交叉熵损失(极大似然损失)梯度下降法优缺点区别与联系以及其他常见问题线性回归回归是监督学习的一个重要问题,回归用于预测输入变量和输出变量之间的关系。回归模型是表示输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:使用一条函数曲线使其很好的拟合已知函数且很好的预测未知数据。回归问题按照输入变量的个数可以分为一元回归和多元回原创 2021-01-25 20:03:05 · 3430 阅读 · 1 评论 -
中心化、标准化和归一化处理
中心化(Zero-centered或者Mean-subtraction)即x′=x−μx^{'}=x-μx′=x−μ得到均值为0的数据,是标准化处理的步骤之一作用:对PCA中的协方差矩阵来说,中心化可以让协方差矩阵的计算量更小,对结果没有影响。让模型不用考虑bias,而只用关注weights。增加基向量的正交性标准化(Standardization或Normalization)即x′=x−μσx^{\prime}= \frac{x- \mu}{\sigma}x′=σx−μ得到均值为原创 2021-01-15 17:58:31 · 2616 阅读 · 0 评论 -
随机森林Random Forest (RF)
Random Forest随机森林实际上是一种特殊的bagging方法,它将决策树用作bagging中的模型。随机森林就是对决策树的集成,但有两点不同:(1)采样的差异性:从含m个样本的数据集中有放回的采样,得到含m个样本的采样集,用于训练。这样能保证每个决策树的训练样本不完全一样。首先,从原始的数据集中采取有放回的抽样,构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数据集的元素可以重复,同一个子数据集中的元素也可以重复。第二,利用子数据集来构建子决策树,将这个数据放到每个子决策树中,每原创 2020-12-19 16:06:48 · 1782 阅读 · 2 评论 -
AdaBoost
AdaBoostAdaBoost是典型的Boosting算法,即找到相对容易的弱学习算法,然后通过反复学习得到一系列弱分类器,组合这些弱分类器得到一个强分类器。Boosting算法要涉及到两个部分,加法模型和前向分步算法。加法模型就是说强分类器由一系列弱分类器线性相加而成。前向分步就是说在训练过程中,下一轮迭代产生的分类器是在上一轮的基础上训练得来的。由于采用的损失函数不同,Boosting算法也因此有了不同的类型,AdaBoost就是损失函数为指数损失的Boosting算法流程输入:训练数原创 2020-12-19 13:04:17 · 1977 阅读 · 2 评论 -
偏差、方差、噪声、泛化误差以及过拟合和欠拟合
偏差:度量了模型的期望预测和真实结果的偏差, 刻画了模型本身的拟合能力方差:度量了同样大小的训练集的变动所导致的学习性能的变化, 刻画了数据扰动所造成的影响低偏差低方差时,是我们所追求的效果,此时预测值正中靶心(最接近真实值),且比较集中(方差小)。低偏差高方差时,预测值基本落在真实值周围,但很分散,此时方差较大,说明模型的稳定性不够好。高偏差低方差时,预测值与真实值有较大距离,但此时值很集中,方差小;模型的稳定性较好,但预测准确率不高,处于“一如既往地预测不准”的状态。高偏差高方差时,.原创 2020-12-18 16:28:57 · 394 阅读 · 1 评论 -
线性可分,线性模型
线性可分和线性不可分线性可分指的是可以用一个线性函数将两类样本分开(注意这里是线性函数),比如在二维空间中的直线,三位空间中的平面以及高维空间中的超平面。这里指的可分是没有一丝误差的分开,线性不可分指的就是部分样本用线性分类面划分时会产生分类错误的现象。线性模型乘法式子中自变量x前的系数w,如果一个w只影响一个x,那么这个模型就是线性模型,如y=w0+w1∗xy=w_0 + w_1*xy=w0+w1∗x当需要拟合y=w0+w1∗x+w2∗x2y=w_0+w_1*x+w_2*x^2y=w0+w原创 2020-12-18 14:00:54 · 3950 阅读 · 0 评论 -
集成树--Boosting Tree与GBDT(梯度提升树)
Boosting Treexgboost原理? - 和鲸社区Kesci的回答 - 知乎https://www.zhihu.com/question/58883125/answer/554373500可以看出,boosting tree 的基本思想是拟合残差。设f(x)f(x)f(x)为强学习器,h(x)h(x)h(x)为弱学习器:前一轮得到的强学习器是ft−1(x)f_{t-1}(x)ft−1(x),损失函数是L(y,ft−1(x))L\left(y, f_{t-1}(x)\right)L原创 2020-12-18 15:56:12 · 309 阅读 · 1 评论 -
CART与ID3、C4.5决策树
CARTCART的全称是Classification and Regression Tree, 即分类与回归树, 其既可用于分类也可用于回归.CART本质是对特征空间进行二元划分(即CART生成的决策树是一棵二叉树),它能够对类别变量与连续变量进行分裂,大体的分割思路是:先对某一维数据进行排序(这也是为什么我们对无序的类别变量进行编码的原因)然后对已经排好后的特征进行切分,切分的方法就是if … else …的格式.然后计算衡量指标(分类树用Gini指数,回归树用最小平方值),最终通过指标的计算原创 2020-12-17 19:24:55 · 182 阅读 · 1 评论