- 博客(2)
- 资源 (2)
- 收藏
- 关注
原创 《数据挖掘导论》学习笔记-离散化
什么是离散化:连续属性的离散化就是将连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。为什么要离散化连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。常见的正态假设是连续变量,离散化减少了对于分布假设的依赖性,因此离散数据有时更有效。离散化的技术根据数
2013-12-08 15:18:26 7867
原创 《数据挖掘导论》学习笔记-特征创建
根据原有的属性我们可以创建出新的属性集,而且新的属性数目可能少于原有的属性数目,也就是降维。创建新的属性的方法有三种:特征提取、映射数据到新的空间、特征构造1、特征提取定义:根据原有的数据自己创建新的属性集。有的数据的属性是非常多的,而特征提取技术都是具体针对某个领域的而不是通用的,因此对数据的处理需要一些较高层次的抽象,提供一些较高层次的属性。比如照片的集合,按照照片是否包含人脸
2013-12-08 10:34:21 1581
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人