《数据挖掘导论》学习笔记
文章平均质量分 61
oo笨小孩oo
静心知路,独自修行,勿忘初心,方得始终
展开
-
《数据挖掘导论》学习笔记-离散化
什么是离散化:连续属性的离散化就是将连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。为什么要离散化连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。常见的正态假设是连续变量,离散化减少了对于分布假设的依赖性,因此离散数据有时更有效。离散化的技术根据数原创 2013-12-08 15:18:26 · 7982 阅读 · 0 评论 -
《数据挖掘导论》学习笔记-特征创建
根据原有的属性我们可以创建出新的属性集,而且新的属性数目可能少于原有的属性数目,也就是降维。创建新的属性的方法有三种:特征提取、映射数据到新的空间、特征构造1、特征提取定义:根据原有的数据自己创建新的属性集。有的数据的属性是非常多的,而特征提取技术都是具体针对某个领域的而不是通用的,因此对数据的处理需要一些较高层次的抽象,提供一些较高层次的属性。比如照片的集合,按照照片是否包含人脸原创 2013-12-08 10:34:21 · 1652 阅读 · 0 评论