第一章 介绍
1、什么是数据挖掘
数据挖掘是在大量不完全的,有噪声的,模糊的,随机的实际数据中,提取出隐含其中的,人们事先不知道的,但又潜在有用的信息和知识的过程。
2、如何对数据挖掘进行分类
1.对数据进行分类
2.根据挖掘知识类型分类
3.根据挖掘所用技术进行分类
4.根据挖掘的应用分类
3、数据挖掘的应用
市场分析、风险分析、流数据挖掘、DNA数据分析、文本挖掘与网络挖掘、欺诈检测与异常模式检测
第二章 了解数据
1、数据属性类型有几种?陈述含义。
标称型Nominal:分类、状态、属性名称
二元型Binary:bool类型
序数型Ordinal:值为有意义的序列,但无法做差值
定量型Quantity:量化(整数或实数)
区间标度型Interval:没有真正零点的,利用等大值测量的,有序的值
比率标度型Ratio:有固有的零点
2、如何度量数据中心趋势
平均值Mean
中值Median
众数Mode
中列数Midrange:最大值与最小值的平均
3、如何度量数据离散度
方差与标准差
4、何谓数据分布的五数概括
就是几个四分位数
最小值、Q1、中值、Q3、最大值
5、双模、多模就是指众数有几种,画出四分位图
第三章 数据预处理
1、箱均值平滑法,如何找出离群点,描述其他数据平滑方法
排序数据ÿ