目录
(二)对异常值的处理
(三)数据归一化、标准化
(四)非结构化数据转变
风控建模学习笔记,按照学习情况进行总结,希望各位大佬批评指正,让我这个小白快速进步!!
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
———————————————————————————————————————————
+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
一、什么是数据的预处理
数据的预处理是指在进行正式数据分析之前,对原始数据进行的一系列准备工作。这些工作包括数据的清洗、转换、归一化、编码、采样等,目的是使数据更适合后续的分析和建模,提高数据的质量和分析的准确性。
二、为什么要进行数据的预处理
-
提升数据质量:预处理可以去除数据中的噪声、异常值和缺失值,确保分析结果的可靠性。
-
适应模型要求:不同的数据分析模型对数据格式有不同要求,预处理可以帮助数据满足这些要求。
-
提高分析效率:通过预处理,可以简化数据结构,减少数据量,从而加快分析过程。
-
增强数据可解释性:预处理后的数据更容易理解和解释,有助于发现数据背后的规律。
三、什么样的数据需要进行预处理
-
原始数据:直接从数据源收集的未经处理的数据。
-
含有缺失值的数据:数据中存在缺失的值,影响分析的完整性。
-
含有异常值的数据:数据中存在与大多数数据显著不同的值。
-
不一致的数据:数据格式、度量标准或编码方式不统一的数据。
-
非结构化数据:如文本、图像等,需要转换为结构化数据才能进行分析。
四、常见的数据预处理方式
-
数据清洗:去除无关数据、纠正错误、填补缺失值、处理异常值。
-
数据转换:改变数据的格式、类型或值,如归一化、标准化、编码转换。
-
数据归一化/标准化:将数据缩放到一个小的特定范围,通常是[0,1]

最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



