机器学习
文章平均质量分 83
菜鸟小_pu
这个作者很懒,什么都没留下…
展开
-
K-Means聚类算法(二):降维,图片矢量量化
1.概述:K-Means聚类最重要的应用之一是非结构数据(声音,图像)上的矢量量化(VQ),非结构化数据往往占据较多的储存空间,文件本身比较大,运算非常缓慢,我们希望能够在保证数据质量的前提下,尽量的缩小非结构化的数据大小,或者简化非结构化数据的结构。矢量量化就可以帮助我们实现这个目的。K-Means的本质是一种降维应用,它与一些其它的降维算法的思路不太相同。例如,特征选择的降维是直接选取对模型贡献最大的特征,PCA的降维是聚合信息,而矢量量化的降维是在同等样本量上压缩信息的大小,既不改变特征数目,也不原创 2021-02-17 16:32:21 · 2333 阅读 · 2 评论 -
K-Means聚类算法(一)
1.概述:K-means聚类算法也称k均值聚类算法,是聚类算法的典型代表,可以说是最简单的聚类算法没有之一。它采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。2.算法思想:K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每原创 2021-02-16 22:40:51 · 7588 阅读 · 6 评论 -
机器学习-数据预处理
机器学习-数据预处理1.概述1.1数据挖掘的五大流程获取数据 数据预处理:从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小数据预处理的目的:让数据适应模型,匹配模型的需求 特征工程特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以通过挑选最相关的特征..原创 2021-02-06 23:41:17 · 4465 阅读 · 0 评论