python数据挖掘与分析实战第四章数据预处理_用Python进行数据挖掘(数据预处理)2018-04-22...

本文介绍了Python进行数据预处理的步骤,包括数据加载、查看、处理缺失值和偏离值。通过使用pandas库读取CSV数据,查看数据的基本信息,如缺失值分布,并使用填充方法(如均值、中位数)处理缺失值。对于偏离值,通过数据可视化和分析确定是否删除。最后,文章提到了数据的统计分析、特征值处理和数据转换的重要性。
摘要由CSDN通过智能技术生成

数据加载与粗略查看

处理丢失的数据

处理偏离值

数据统计

特征值的合并、连接

数据转换、标准化、归一化

数据加载与粗略查看

数据加载

一般训练与测试的数据都提供csv格式,使用pandas库读取:

df_train = pd.read_csv('../train.csv')

此时读取的df_train为DataFrame格式。

同时pandas还可以读取各种不同格式的数据,如存储比较快的hdf格式、excel等

但有时数据不是简单的csv,它按照文本保存,如“ID||texttexttexttext”这样的一条数据需要将中间的“||”当作分隔符,读取方式如下:

train = pd.read_csv('../input/training_text', sep="\|\|", engine='python', header=None, skiprows=1, names=["ID","Text"])

更多参数应该查阅pandas文档。

数据粗略查看

在pandas读进来数据一个train后,train的格式为DataFrame,调用下面的几个方法就可以大致了解我们得到的数据是什么,有什么特征值,特征值的数据类型是什么,如果是数值那么最大最小值是什么等:

train.head(5) #显示前5行数据

train.tail(5) #显示后5行

train.columns #查看列名

train.info() #查看各字段的信息

train.shape #查看数据集行列分布,几行几列

train.describe() #查看数据的大体情况

如train.describe():

train.describe()

处理丢失的数据

处理这些数据以前不建议把train与test 连接起来,因为这样容易造成test里数据的丢失,个人认为较好的方式为:

full_data = [train, test]

将两个数据集合成为list,然后清洗时对其for循环即可,如:

for dataset in full_data:

dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1

下面只介绍对测试集train 的操作。

找到丢失的位置

输出每个列丢失值也即值为NaN的数据和,并从多到少排序:

total = train.isnull().sum().sort_values(ascending=False)

print(total)

Cabin 687

Age 177

Embarked 2

Fare 0

Ticket 0

Parch 0

SibSp 0

Sex 0

Name 0

Pclass 0

Survived 0

PassengerId 0

也可以输出百分比:

percent =(train.isnull().sum()/train.isnull().count()).sort_values(ascending=False)

missing_data = pd.concat([total, percent], axis=1, keys=['Total

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值