Python数据分析——数据预处理的方法-CSDN博客

本文链接：https://blog.csdn.net/WANGJUNAIJIAO/article/details/130804313

本文介绍了如何使用Python进行数据预处理，包括读取多个CSV文件，合并数据，处理缺失值和重复值，数据类型转换，异常值处理，数据离散化，字符串处理，分组运算和布尔过滤。特别地，文章展示了如何处理板块、成交单价、成交楼层等字段，并利用get_dummies()方法数值化非数值信息，以及如何分析经纪人成交总价值与从业年限的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言（全套教程文末领取哈）

1. 关于数据集

数据来源：日月光华老师的《Python数据分析从入门到机器学习》的 lianjia 数据。

数据概况：

cjtaoshu：成交套数
mendian：门店
cjzongjia：成交总价
zhiwei：职位
haoping：好评
cjdanjia：成交单价
cjxiaoqu：成交小区
xingming：姓名
cjzhouqi：成交周期
biaoqian：经纪人标签
cjlouceng：成交楼层
cjshijian：成交时间
congyenianxian：经纪人从业年限
bankuai：板块

2. 分析环境

Python3
jupyter notebook

一、数据读取、数据观察与合并数据

1. 数据读取

可以看到一共有7个csv文件，而且由于数据文件的编码方式不统一，在循环读取的时候需要做一下处理。

代码：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

data_list = []
for i in range(1, 8):
    try:
        data = pd.read_csv('./lianjia/lianjia{}.csv'.format(i), encoding='gbk')
    except:
        data = pd.read_csv('./lianjia/lianjia{}.csv'.format(i))
    data_list.append(data)

2. 合并数据

concat()方法

data_list里的数据的数据格式都是完全统一的，这里用pandas的concat()方法。

data = pd.concat(data_list)
data.head()

3. 确定分析目标，提取需要数据

分析目标：做一个房产估价模型，给定一些房子信息，模型估计出单价。这里需要：cjdanjia（成交单价），cjxiaoqu（成交小区），cjlouceng（成交楼层），bankuai（板块）。

data = data[['cjdanjia', 'cjxiaoqu', 'cjlouceng', 'bankuai']]

二、处理缺失值与重复值

1. 缺失值

isnull()方法

# 删除全部为null的值
data.dropna(how='all', inplace=True)

这里（bankuai）板块部分数据相对来说不是那么的重要，所以有缺失值问题不大，这里不做处理。

2. 重复值

duplicated()方法

由于在处理缺失值时，对板块数据没有进一步处理，在判断是否是重复值时就会存在这样一种情况：非null数据相同，但是板块数据一个为null,一个不为null，这其实是重复数据，所以在判断是否为重复值时，使用非null的数据判断：

(data.duplicated(subset=['cjdanjia','cjxiaoqu','cjlouceng'])).sum()

>>> 20012

drop_duplicates()方法

sort_values()方法

使用drop_duplicates()方法删除重复值时，会默认把后面的重复值删除掉，为了尽量保留有板块值不为null的数据，这里先使用sort_values()方法排序，该方法默认把包含null的值放后面。

data.sort_values(by='bankuai', inplace=True)

data.drop_duplicates(subset=['cjdanjia','cjxiaoqu','cjlouceng'], inplace=True)

三、数据类型转换、异常值处理以及数据离散化分析

1. 数据类型转换

将cjdanjia转换为数值类型，以万元为单位，保留两位小数。

# 判断数据是否都包含'元/平' ~：取反
(~data.cjdanjia.str.contains('元/平')).sum()
>>> 0

data = data.assign(cjdanjia = np.round(data.cjdanjia.str.replace('元/平', '').astype(np.float32).map(lambda x:x/10000), 2))

2. 异常值处理

按照北京房价行情分析，成交单价的最小值应该在5000元以上（主观推测），所以去掉成交单价小于5000的数据。

data = data[data.cjdanjia > 0.5]

3. 数据离散化分析

区间画图显示分析

bins = [0, 1, 2, 3, 4, 5, 7, 10, 15]
pd.cut(data.cjdanjia, bins).value_counts().plot.bar(rot=20)

由于这里分析的数据是2011~2016年之间的数据，所以可以看到成交单价大部分分布在2到4万之间。

四、字符串处理

这里以成交楼层（cjlouceng）数据为例学习字符串处理方法。由前面的图可以看到成交楼层（cjlouceng）数据都是以两个’/'分成了三部分，这里先判断一下。

(data.cjlouceng.str.split('/').map(len) != 3).sum()
>>> 0

然后从成交楼层数据中提取朝向和楼层信息，并以此添加两列数据。

data = data.assign(chaoxiang = data.cjlouceng.map(lambda x:x.split('/')[0]))
data = data.assign(louceng = data.cjlouceng.map(lambda x:x.split('/')[1]))

查看楼层数据都有哪些：

unipue()方法：返回唯一值

data.louceng.unique()

>>> array(['低楼层', '中楼层', '高楼层', '地下室', '未知', ''], dtype=object)

经分析这里louceng数据包含 ‘未知’ 和 ‘’ 的数据数量很少，而且信息不全，这里将其删除掉。

data = data[(data.louceng != '')&(data.louceng != '未知')]

get_dummies()方法

楼层数据不是数值，无法丢进模型进行分析，这里用pandas的get_dummies()方法数值化信息。

data.join(pd.get_dummies(data.louceng))

其他字符串类型数据处理方式大致相同。

五、分组运算与布尔过滤

在前面第一节：确定分析目标，提取需要数据中再加上 ‘xingming’ 和 ‘cjzongjia’，‘congyenianxian’，其他不变。

1. 分组运算

分析：所有的板块中，经纪人成交总价值超过1亿的经纪人。

groupby()方法

data_group = data.groupby(['bankuai','xingming'])['cjzongjia'].sum()

2. 布尔过滤

data_group[data_group > 10000]

3. 透视表分析

进一步思考：这些成交总价超过一亿的经纪人有什么特点？跟从业年限（congyenianxian）的关系。

pivot_table()方法

data_1w = data.pivot_table('cjzongjia', index='xingming', columns='congyenianxian', aggfunc=sum)

#绘制饼图
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
(data_1w > 10000).sum().plot.pie(figsize=(6,6))