python数据挖掘与分析实战第四章数据预处理_用Python进行数据挖掘（数据预处理）2018-04-22...

weixin_39793098

于 2020-12-13 05:25:43 发布

阅读量428

点赞数

文章标签： python数据挖掘与分析实战第四章数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39793098/article/details/111417601

版权

本文介绍了Python进行数据预处理的步骤，包括数据加载、查看、处理缺失值和偏离值。通过使用pandas库读取CSV数据，查看数据的基本信息，如缺失值分布，并使用填充方法（如均值、中位数）处理缺失值。对于偏离值，通过数据可视化和分析确定是否删除。最后，文章提到了数据的统计分析、特征值处理和数据转换的重要性。

摘要由CSDN通过智能技术生成

数据加载与粗略查看

处理丢失的数据

处理偏离值

数据统计

特征值的合并、连接

数据转换、标准化、归一化

数据加载与粗略查看

数据加载

一般训练与测试的数据都提供csv格式，使用pandas库读取：

df_train = pd.read_csv('../train.csv')

此时读取的df_train为DataFrame格式。

同时pandas还可以读取各种不同格式的数据，如存储比较快的hdf格式、excel等

但有时数据不是简单的csv，它按照文本保存，如“ID||texttexttexttext”这样的一条数据需要将中间的“||”当作分隔符，读取方式如下：

train = pd.read_csv('../input/training_text', sep="\|\|", engine='python', header=None, skiprows=1, names=["ID","Text"])

更多参数应该查阅pandas文档。

数据粗略查看

在pandas读进来数据一个train后，train的格式为DataFrame，调用下面的几个方法就可以大致了解我们得到的数据是什么，有什么特征值，特征值的数据类型是什么，如果是数值那么最大最小值是什么等：

train.head(5) #显示前5行数据

train.tail(5) #显示后5行

train.columns #查看列名

train.info() #查看各字段的信息

train.shape #查看数据集行列分布，几行几列

train.describe() #查看数据的大体情况

如train.describe()：

train.describe()

处理丢失的数据

处理这些数据以前不建议把train与test 连接起来，因为这样容易造成test里数据的丢失，个人认为较好的方式为：

full_data = [train, test]

将两个数据集合成为list，然后清洗时对其for循环即可，如：

for dataset in full_data:

dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1

下面只介绍对测试集train 的操作。

找到丢失的位置

输出每个列丢失值也即值为NaN的数据和，并从多到少排序：

total = train.isnull().sum().sort_values(ascending=False)

print(total)

Cabin 687

Age 177

Embarked 2

Fare 0

Ticket 0

Parch 0

SibSp 0

Sex 0

Name 0

Pclass 0

Survived 0

PassengerId 0

也可以输出百分比：

percent =(train.isnull().sum()/train.isnull().count()).sort_values(ascending=False)

missing_data = pd.concat([total, percent], axis=1, keys=['Total

最低0.47元/天解锁文章

weixin_39793098

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python数据挖掘与分析实战第四章数据预处理_用Python进行数据挖掘（数据预处理）2018-04-22...

数据加载与粗略查看处理丢失的数据处理偏离值数据统计特征值的合并、连接数据转换、标准化、归一化数据加载与粗略查看数据加载一般训练与测试的数据都提供csv格式，使用pandas库读取：df_train = pd.read_csv('../train.csv')此时读取的df_train为DataFrame格式。同时pandas还可以读取各种不同格式的数据，如存储比较快的hdf格式、excel等但有时数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。