3.1 例子:相对于一个80%地址正确的数据库,市场分析人员要使用数据进行目的营销,对数据的准确性总体上还能接受;但对于销售人员来说,要利于数据进行一对一推销,对这样的数据则完全不能接受。
可信性:反映用户信赖的数据规模;
可解释性:反映数据是否容易理解。
3.2 处理元祖属性缺失值的方法:1忽略此元祖:适合于多属性缺失;2人工填写缺失值:数据量较小时;3使用一个全局变量填充缺失值:简单但不可靠;4使用属性的中心度量,如均值或中位数:对称数据分布使用均值,倾斜数据分布使用中位数;5使用与给定元祖属同一类的所有样本的属性均值或中位数:感觉打酱油的方法,这样补充不会影响数据分布;6使用最可能的值填充缺失值:最流行的方式,利用已有数据的大部分信息来预测缺失值。
3.3(1) 深度为3的箱 用箱均值光滑:
箱1:13,15,16 14,14,14