博客
第一次写博客,总之觉得自己学习得留下点什么
种一棵树最好是十年前其次是现在
1.对数据进行导入
(1)数据这东西,大家可以自行准备一下,可以顺便联系下自己的excel水 平,大家可以拿自己比较感兴趣的,比如B站的番剧数据之类的,这里我用一个比较真实的某地的城镇房屋安全系数数据。
(2)先把数据和文件,放在一个文件夹,我命名为city_demo,方便我们操作。
(3)数据内容:因为涉及到一些隐私,我把地址隐藏了,内容大概是这样
(4)于是乎,我们可以开始创建自己的第一个数据项目,首先我们创建一个python项目,然后导入pandas。`
import numpy as np
import pandas as pd
这里要说明下,pandas是一个非常好用python的数据处理的包,而numpy是一个好用的多维数据处理器,这里其实并不需要。
然后就是导入xls文件:
data = pd.read_excel("./city0.xls")
data.info
这些都是基本操作了,是数据处理一定要会的
从图片我们可以看出,有158行数据,并且没有任何缺失值,可以直接用。接下来我们就进行数据的清洗。
2.数据清洗
(1)因为这里的数据比较齐整,不用填补空缺值,我们也来说说遇到空缺值的时候要怎么处理。举个例子,输入我这段代码可以得到一个有简单缺省值的数据:
import pandas as pd
import numpy as np
data = {
'student': ['张三', '李四', '王五', '小红', '小明', '小张', '阿兰', '王马', '甘雨', '刻晴'],
'age': [16, 13, 15, np.nan, 15, 12, 14.5, np.nan, 17, 13]