机器学习/统计学方法/算法 学习专辑
文章平均质量分 94
该昵称已经被占用
这个作者很懒,什么都没留下…
展开
-
统计学习方法概论
统计学习 如果一个系统能够通过执行某个过程改进它的性能,这就是学习 ——赫尔伯特.西蒙定义: 关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,也称为统计机器学习特点: 以数据为研究对象,以方法为中心,统计学习方法构建模型并应用模型进行预测与分析,以计算机及网络为平台对象: 从数据出发,提取数据的特征抽象出数据的模型,发现数据中的知识,又回到对数据的分析和预测中。其原创 2015-08-09 08:17:08 · 1080 阅读 · 0 评论 -
主成分分析法
背景介绍 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术,也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同原创 2015-10-01 21:32:33 · 17358 阅读 · 2 评论 -
机器学习/统计学方法/算法 —— 总体架构目录
统计学方法统计学习方法概论机器学习主成分分析法算法不平衡数据集下的SVM算法研究原创 2015-10-12 10:37:53 · 1025 阅读 · 0 评论 -
不平衡数据集下的SVM算法研究
概论传统的样本一般是从精心设计的实验装置中筛选出来的,这些样本往往满足一定条件。而我们获得的网络样本、金融样本以及生物样本中,这些观测样本往往具有涌现性,且与传统意义的样本并不相同,大量的样本中往往有用的样本点却很少。这种某类样本的数量明显少于其他类样本数量的样本集称为不均衡样本集问题的本质从技术角度上说,任何在不同类之间展现出不等分布的样本集都应该被认为是不均衡的,并且应该展现出明显的不平原创 2016-02-14 10:47:54 · 22382 阅读 · 2 评论 -
不均衡学习的抽样方法
通常情况下,在不均衡学习应用中使用抽样方法的目的就是为了通过一些机制改善不均衡数据集,以期获得一个均衡的数据分布。研究表明,对于一些基分类器来说,与不均衡的数据集相比一个均衡的数据集可以提高全局的分类性能。数据层面的处理方法是处理不均衡数据分类问题的重要途径之一,它的实现方法主要分为对多数类样本的欠抽样和对少数类样本的过抽样学习两种。其主要思想是通过合理的删减或者增加一些样本来实现数据均衡的目原创 2016-03-04 16:58:35 · 44943 阅读 · 13 评论 -
基于 ODR 和 BSMOTE 的不均衡 SVM 分类算法
概述支持向量机已经成功的应用在许多大规模样本集分类中,但是在这些样本集中可能存在着大量的噪声和冗余信息,进而导致分类器的分类精度不高。因此近年来,大量的去噪声和删减样本的文章不断涌现出。其中欠抽样算法就是通过删减多数类样本的数目以达到均衡样本集的目的。然而常用的欠抽样方法都是些随机欠抽样方法,这种方法存在着一些缺陷:采样具有很大的随机性,这是由于随机欠抽样方法未考虑样本的分布情况,可能会删原创 2016-03-06 15:33:57 · 5199 阅读 · 9 评论