数据预处理可以提高数据的质量,从而有助于提高后续学习过程的精度和性能。通常预处理方法包含以下几种:
1、数据清理
数据清理通过填充缺失值,光滑噪声,识别离群点,并纠正数据中的不一致等技术来进行。这里我们主要介绍缺失值、噪声数据和不一致数据的数据清理方法。
缺失值填充:缺失值对于无监督学习结果会带来影响,通常采用以下方法进行填充:
1) 删除含有缺失值的样本:无监督学习过程中不使用有缺失值的元组,即在无监督学习过程中删除含有缺失值的样本。此方法的缺点是删除含有缺失值的样本可能使得留下的样本用于学习的样本不能完全正确反映原始数据的分布状态,使得学习结果偏离真实情况,不能发现数据的原始分布。因此该方法不是很有效的样本缺失值处理方法,除非元组有多个属性值空缺时才采用此方法,否则不采用此方法。
2) 人工填写缺失值:该方法就是人工补充样本的缺失值,因此非常费时,不适于大规模数据集的无监督学习数据预处理。
3) 使用一个全局常量填充缺失值:该方法虽然简单,但并不是很可靠,因为仍然存在偏离数据原始分布信息的问题。从而使得学习结果无法发现所学习数据中隐藏的真实信息。
4) 使用属性的均值填充缺失值:该方法相对上一方法要好些,但仍然存在偏离原始数据分布信息的潜在危险。
5) 使用与给定元组同一类的所有样本的属性均值填充相应的缺失值:该方法比使用属性均值填充缺失值更好,更能接近原始数据的分部信息。