ps:本笔记是因为在完善模型时将自己的数据集代入会引发很多的错误,例如:缺省值对函数运算造成的报错,通过数据转换后数据形状不匹配,导致预测结果无法正确生成等等,因此我打算正式的学习一下有关数据处理的相关知识,而不是和之前一样,在借鉴的模型中有用到的才去查询相关的信息。主要以python中对机器学习的数据处理。
一、数据处理概念
数据预处理是指在应用机器学习算法之前,对原始数据进行清洗、转换和处理的过程。这包括了数据清洗、特征选择、特征变换、数据标准化等多个步骤。数据预处理的目的是使原始数据更适合于机器学习模型的训练和应用,从而提高模型的准确性和泛化能力
以下是一些常见的数据处理步骤:
1.数据收集:收集原始数据,这可能涉及到从数据库中查询数据、爬取网页、使用传感器采集数据等。
2.数据清洗:清洗数据以去除错误、不一致或缺失的数据。这可能包括填充缺失值、移除异常值、解决重复数据等。
3.数据转换:将原始数据转换成适合机器学习模型处理的形式。例如,将文本数据转换成数值型数据、对数据进行归一化或标准化等。
4.特征工程:提取、构建或选择适当的特征,以帮助模型更好地理解数据。这可能涉及到对原始特征进行组合、降维、离散化等操作。
5.数据分割:将数据集划分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调整模型超参数,测试集用于评估模型的性能。
6.数据增强:在训练模型之前,通过对原始数据进行变换、扩充等操作来增加数据样本的多样性,以提高模型的泛化能力。
7.特征选择:根据特征的重要性或相关性,选择最具代表性的特征,以减少模型的复杂性并提高性能。
8.数据可视化:通过可视化工具对数据进行探索性分析,以帮助理解数据的分布、关联性和特征重要性等。
二、数据处理分类
在进行数据处理前应判断具体的处理操作类型例如缺省值,异常值,重复值等等
我手上以后数据集中目前已知出现了缺省值和异常值。
缺省值
分为随机丢失,完全随机丢失,非随机丢失。
在前两种情况下可以根据其出现情况删除缺失值的数据,同时,随机缺失可以通过已知变量对缺失值进行估计。
在第三种情况下,删除包含缺失值的数据可能会导致模型出现偏差,同时,对数据进行填充也需要格外谨慎。
下图为转载知乎博主的大纲图(链接在文末):

基于本人自己参加的项目来说,主要对插补方法进行深入讨论。

最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=138613071&d=1&t=3&u=30d33bd2701b488b8beb4083285b60f7)
1616

被折叠的 条评论
为什么被折叠?



