python数据获取及预处理_Python数据分析——数据预处理的方法

前言

1. 关于数据集

数据来源:日月光华老师的《Python数据分析从入门到机器学习》的 lianjia 数据。

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

数据概况:

cjtaoshu:成交套数

mendian:门店

cjzongjia:成交总价

zhiwei:职位

haoping:好评

cjdanjia:成交单价

cjxiaoqu:成交小区

xingming:姓名

cjzhouqi:成交周期

biaoqian:经纪人标签

cjlouceng:成交楼层

cjshijian:成交时间

congyenianxian:经纪人从业年限

bankuai:板块

2. 分析环境

Python3

jupyter notebook

一、数据读取、数据观察与合并数据

1. 数据读取

可以看到一共有7个csv文件,而且由于数据文件的编码方式不统一,在循环读取的时候需要做一下处理。

代码:

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

data_list = []

for i in range(1, 8):

try:

data = pd.read_csv('./lianjia/lianjia{}.csv'.format(i), encoding='gbk')

except:

data = pd.read_csv('./lianjia/lianjia{}.csv'.format(i))

data_list.append(data)

2. 合并数据

concat()方法

data_list里的数据的数据格式都是完全统一的,这里用pandas的concat()方法。

data = pd.concat(data_list)

data.head()

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

3. 确定分析目标,提取需要数据

分析目标:做一个房产估价模型,给定一些房子信息,模型估计出单价。这里需要:cjdanjia(成交单价),cjxiaoqu(成交小区),cjlouceng(成交楼层),bankuai(板块)。

data = data[['cjdanjia', 'cjxiaoqu', 'cjlouceng', 'bankuai']]

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

二、处理缺失值与重复值

1. 缺失值

isnull()方法

# 删除全部为null的值

data.dropna(how='all', inplace=True)

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

这里(bankuai)板块部分数据相对来说不是那么的重要,所以有缺失值问题不大,这里不做处理。

2. 重复值

duplicated()方法

由于在处理缺失值时,对板块数据没有进一步处理,在判断是否是重复值时就会存在这样一种情况:非null数据相同,但是板块数据一个为null,一个不为null,这其实是重复数据,所以在判断是否为重复值时,使用非null的数据判断:

(data.duplicated(subset=['cjdanjia','cjxiaoqu','cjlouceng'])).sum()

>>> 20012

drop_duplicates()方法

sort_values()方法

使用drop_duplicates()方法删除重复值时,会默认把后面的重复值删除掉,为了尽量保留有板块值不为null的数据,这里先使用sort_values()方法排序,该方法默认把包含null的值放后面。

data.sort_values(by='bankuai', inplace=True)

data.drop_duplicates(subset=['cjdanjia','cjxiaoqu','cjlouceng'], inplace=True)

三、数据类型转换、异常值处理以及数据离散化分析

1. 数据类型转换

将cjdanjia转换为数值类型,以万元为单位,保留两位小数。

# 判断数据是否都包含'元/平' ~:取反

(~data.cjdanjia.str.contains('元/平')).sum()

>>> 0

data = data.assign(cjdanjia = np.round(data.cjdanjia.str.replace('元/平', '').astype(np.float32).map(lambda x:x/10000), 2))

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

2. 异常值处理

按照北京房价行情分析,成交单价的最小值应该在5000元以上(主观推测),所以去掉成交单价小于5000的数据。

data = data[data.cjdanjia > 0.5]

3. 数据离散化分析

区间画图显示分析

bins = [0, 1, 2, 3, 4, 5, 7, 10, 15]

pd.cut(data.cjdanjia, bins).value_counts().plot.bar(rot=20)

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

由于这里分析的数据是2011~2016年之间的数据,所以可以看到成交单价大部分分布在2到4万之间。

四、字符串处理

这里以成交楼层(cjlouceng)数据为例学习字符串处理方法。由前面的图可以看到成交楼层(cjlouceng)数据都是以两个'/'分成了三部分,这里先判断一下。

(data.cjlouceng.str.split('/').map(len) != 3).sum()

>>> 0

然后从成交楼层数据中提取朝向和楼层信息,并以此添加两列数据。

data = data.assign(chaoxiang = data.cjlouceng.map(lambda x:x.split('/')[0]))

data = data.assign(louceng = data.cjlouceng.map(lambda x:x.split('/')[1]))

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

查看楼层数据都有哪些:

unipue()方法:返回唯一值

data.louceng.unique()

>>> array(['低楼层', '中楼层', '高楼层', '地下室', '未知', ''], dtype=object)

经分析这里louceng数据包含 '未知' 和 '' 的数据数量很少,而且信息不全,这里将其删除掉。

data = data[(data.louceng != '')&(data.louceng != '未知')]

get_dummies()方法

楼层数据不是数值,无法丢进模型进行分析,这里用pandas的get_dummies()方法数值化信息。

data.join(pd.get_dummies(data.louceng))

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

其他字符串类型数据处理方式大致相同。

五、分组运算与布尔过滤

在前面第一节:确定分析目标,提取需要数据中再加上 'xingming' 和 'cjzongjia','congyenianxian',其他不变。

1. 分组运算

分析:所有的板块中,经纪人成交总价值超过1亿的经纪人。

groupby()方法

data_group = data.groupby(['bankuai','xingming'])['cjzongjia'].sum()

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

2. 布尔过滤

data_group[data_group > 10000]

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

3. 透视表分析

进一步思考:这些成交总价超过一亿的经纪人有什么特点?跟从业年限(congyenianxian)的关系。

pivot_table()方法

data_1w = data.pivot_table('cjzongjia', index='xingming', columns='congyenianxian', aggfunc=sum)

#绘制饼图

plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签

(data_1w > 10000).sum().plot.pie(figsize=(6,6))

04d1e3460031?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

此图很明显的说明了一个问题:对经纪人来说,从业年限越高,他的成交总价超过一亿的人数就越多。

总结

通过对lianjia数据的分析处理,进一步巩固了Python数据分析数据预处理的一些方法。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值