![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Machine Learning
Mr贾
这个作者很懒,什么都没留下…
展开
-
Machine Learning --5种距离度量方法
1 前言在数据挖掘中,我们经常需要计算样本之间的相似度(Similarity ),我们通常的做法是计算样本之间的距离,本文对距离计算方法做以下总结。2 距离计算方法A 欧式距离EuclideanDistance欧式距离:两点之间的直线距离。(1)二维平面上两点a(x1,y1),b(x2,y2)之间的欧式距离公式:(2) n维空间上两点a(x1,x2……..xn),b(y1,y2……..yn)的欧式...转载 2018-05-05 15:21:01 · 409 阅读 · 0 评论 -
ML中常见的几种最优化方法
阅读目录1. 梯度下降法(Gradient Descent)2. 牛顿法和拟牛顿法(Newton's method & Quasi-Newton Methods)3. 共轭梯度法(Conjugate Gradient)4. 启发式优化方法 5. 解决约束优化问题——拉格朗日乘数法 我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题“在一定成...转载 2018-05-05 15:25:07 · 3598 阅读 · 0 评论 -
对VC维的理解和认识
VC维是模型的复杂程度,模型假设空间越大,VC维越高。某种程度上说,VC维给机器学习可学性提供了理论支撑。 1. 测试集合的loss是否和训练集合的loss接近?VC维越小,理论越接近,越不容易overfitting。 2. 训练集合的loss是否足够小?VC维越大,loss理论越小,越不容易underfitting。 我们对模型添加的正则项可以对模型复杂度(VC维)进行控制,平衡这两个部分。...转载 2018-05-05 15:58:00 · 965 阅读 · 0 评论 -
特征选择
特征选择包括: 1.Filter 使用方差、Pearson相关系数、互信息等方法过滤特征,评估单个特征和结果值之间的相关程度,留下Top相关的特征部分。 2.Wrapper 可利用“递归特征删除算法”,把特征选择看做一个特征子集搜索问题,筛选各种特征子集,用模型评估效果。 3.Embedded 可利用正则化方式选择特征,使用带惩罚项的基模型,除了选择出特征外,同时也进行了降纬。 意义: -剔...转载 2018-05-05 16:22:42 · 216 阅读 · 0 评论 -
偏差和方差---模型评估
偏差与方差,欠拟合与过拟合机器学习的核心在于使用学习算法建立模型,对已建立模型的质量的评价方法和指标不少,本文以准确率(也称为精度)或判定系数(Coefficient of Determination)作为性能指标对模型的偏差与方差、欠拟合与过拟合概念进行探讨。偏差、方差、欠拟合、过拟合均是对模型(学习器)质量的判断和描述,训练集和验证集(测试集)上的准确率或判定系数得分为做出上述判断提供依据。偏...转载 2018-05-05 17:11:21 · 1266 阅读 · 0 评论 -
为什么KNN算法在增大k时,偏差会变大,但RF增大树的数目时偏差却保持不变,GBDT在增大树的数目时偏差却又能变小
对于KNN算法,k值越大,表示模型的学习能力越弱,因为k越大,它越倾向于从“面”上考虑做出判断,而不是具体地考虑一个样本 近身的情况来做出判断,所以,它的偏差会越来越大。对于RF,我们实际上是部分实现了多次训练取均值的效果,每次训练得到的树都是一个很强的学习者,每一个的方差都比较大,但综合起来就会比较小。好比一个很强的学习者学习时,刮着西风,它会据此调整自己的瞄准方法,另一个很强的学习者学习时刮着...转载 2018-05-05 17:17:07 · 4604 阅读 · 0 评论 -
聚类的划分
1. 基于划分的聚类:K-means,k-medoids,CLARANS。 2. 基于层次的聚类:AGNES(自底向上),DIANA(自上向下)。 3. 基于密度的聚类:DBSACN,OPTICS,BIRCH(CF-Tree),CURE。 4. 基于网格的方法:STING,WaveCluster。 5. 基于模型的聚类:EM,SOM,COBWEB。...转载 2018-05-05 17:21:25 · 932 阅读 · 0 评论 -
选择核函数的方法:
选择核函数的方法: 如果特征的数量大到和样本数量差不多,则选用LR或者线性核的SVM; 如果特征的数量小,样本的数量正常,则选用SVM+高斯核函数; 如果特征的数量小,而样本的数量很大,则需要手工添加一些特征从而变成第一种情况。...原创 2018-05-05 19:26:13 · 1626 阅读 · 0 评论 -
PCA 的思路和推导
PCA是一种较为常用的降维技术,PCA的思想是将n维特征映射到k维上,这k维是全新的正交特征。这k维特征称为主元,是重新构造出来的k维特征。在PCA中,数据从原来的坐标系转换到新的坐标系下,新的坐标系的选择与数据本身是密切相关的。其中,第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选取的是与第一个坐标轴正交且具有最大方差的方向,依次类推,我们可以取到这样的k个坐标轴。 ...转载 2018-05-07 10:56:51 · 3247 阅读 · 1 评论