机器学习
文章平均质量分 71
peterchan88
这个作者很懒,什么都没留下…
展开
-
奇异值SVD
前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景。奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简转载 2016-09-16 08:25:04 · 754 阅读 · 0 评论 -
kNN与kMeans聚类算法的区别
kNN与kMeans聚类算法的区别KNNK-Means目的是为了确定一个点的分类目的是为了将一系列点集分成k类KNN是分类算法K-Means是聚类算法监督学习,分类目标事先已知非监督学习,将相似数据归到一起从而得到分类,没有外部分类训练转载 2017-07-15 15:48:50 · 921 阅读 · 0 评论 -
交叉验证(Cross Validation)
假设我们需要从某些候选模型中选择最适合某个学习问题的模型,我们该如何选择?以多元回归模型为例:,应该如何确定k的大小,使得该模型对解决相应的分类问题最为有效?如何在偏倚(bias)和方差(variance)之间寻求最佳的平衡点?更进一步,我们同样需要知道如何在加权回归模型中选择适当的波长参数,或者在基于范式的SVM模型中选择适当的参数C?我们假设模型集合为有限集,我们的目的就是从这d个模型转载 2017-07-30 22:11:40 · 897 阅读 · 0 评论 -
分类中数据不平衡问题的解决经验
问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题,这样只能在各个独立的子空间中寻找数据的规律,对于少数类来说每个子空间中包含了很少的数据信息转载 2017-07-27 09:20:43 · 653 阅读 · 1 评论 -
数据挖掘之特征选择
作者: Edwin Jarvis特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情转载 2017-07-27 14:35:44 · 1627 阅读 · 1 评论 -
决策树的特性及优缺点
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。 构建决策树采用贪心算法,只考虑当前纯度差最大的转载 2017-08-24 15:57:23 · 17082 阅读 · 0 评论 -
数据挖掘十大算法--K-均值聚类算法
一、相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:如何定量计算两个可比较元素间的相异度。用通俗的话说,相异度就是两个东西差别有多大,例如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能我们直观感受到的。但是,计算机没有这种直观感受能力,我们必须对相异度在数学上进行定量定义。 设 ,其中X,Y是两个元素项,各自具有n个可度量特征属性,那么X和Y的相异度定义为:转载 2017-11-03 09:48:57 · 5680 阅读 · 0 评论 -
K-Means聚类算法以及扩展算法K-Modes、K-Prototype
k-means聚类算法是一种简单易行,时间复杂度低的聚类算法,特别是针对大规模的数据集。但其只能处理数值属性限制了他的应用范围,它的具体算法步骤如下:1.确立最终聚类处理得到簇的个数,如果有先验知识,如知道一个数据集为有3类,则可设k=3。如果不清楚,有一些指导性方法可确定估计值;2.选取k条初始记录作为质心,k条记录的欧式具体尽量大,说明记录的相关性低,提高聚类效果;3.转载 2017-11-03 10:07:26 · 10116 阅读 · 1 评论 -
中文情感分析语料库
中文情感分析语料库http://blog.leanote.com/post/doubleseven/%E4%B8%AD%E6%96%87%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90%E8%AF%AD%E6%96%99%E5%BA%93中文情感分析的语料库非常少,这五个中文语料库是我在网上的搜集的。转载 2017-11-03 16:20:12 · 8125 阅读 · 0 评论