数据挖掘 特征提取
Tanya_girl
小分析师一枚
展开
-
Feature extraction, foundation and application笔记
3.1节 pearson相关系数是典型的用在individual feature ranking的方法,适用于回归和二分类问题,pearson相关系数可以看成两个向量center化之后夹角余弦的绝对值3.2节多元统计变量,考虑各个变量的相关性。用多元统计变量的一个理由是,有的特征与目标变量不相关,但是与其他某些特征结合,会变成相关的。在生活中的栗子:一张有污点的图片,特征1原创 2015-12-01 23:59:34 · 616 阅读 · 0 评论 -
用pca进行特征选择
原文地址:点击打开链接和维度灾难的作者是同一个作者,可惜只写了降低维度的这一个方法。1 简介在这篇文章中,我们讨论了主成分分析是如何工作的,以及为什么它能够作为分类的降维方法。文章末尾展示了matlab源代码。 在之前一篇文章中我们讨论了维度灾难,以及在高维空间中,分类器容易发生过拟合。因此产生了问题:应该选择和舍弃哪些特征。如果所有的特征都统计意义上翻译 2015-12-04 14:41:15 · 4407 阅读 · 0 评论 -
降维中的特征选择
在建模中第一步就是特征处理,之前用spss modeler这种集成好的软件,没有处理过维度很高的数据,上来就是数据各种图形、缺失值、噪声处理,这次接触到上千个维度,数据看了下倒是没有缺失值,用r去做逻辑回归,但是总是报错,后来发现是模型迭代次数太少,模型不稳定,需要调节参数control=list(maxit=100),但是运行很慢很慢,因此想先降低维度再建立模型吧,但是网上和书本上都是讲解各种算转载 2015-12-07 09:24:34 · 1584 阅读 · 0 评论 -
R语言 caret包 findCorrelation()函数用法
在做降低维度处理时候,需要考察变量之间相关性,r语言caret包 findCorrelation()可以用来筛选与其他相关性系数强的变量并且删除。findCorrelation(x, cutoff = .90, verbose = FALSE)X是需要输入的相关系数矩阵,假如有n*n维度的相关矩阵,每个变量有n-1个相关系数(除了自己),他会对这n-1个相关系数取平均值,这样每个变量都原创 2015-12-07 11:14:39 · 6886 阅读 · 2 评论 -
为什么一些机器学习模型需要对数据进行归一化?
http://www.open-open.com/lib/view/open1429697131932.html转载 2016-12-01 18:15:43 · 1964 阅读 · 0 评论