数据清洗1-_duration data-CSDN博客

内容来自知乎：https://zhuanlan.zhihu.com/p/32572237

数据清洗- Pandas 清洗“脏”数据（一）

#coding:utf-8
import pandas as pd
#-----------------------------在一行显示所有数据
pd.set_option('display.width',None)
pd.set_option('display.max_columns',None)
'''pd.set_option('display.max_rows',None)'''
#-----------------------------加载数据集
data = pd.read_csv(r'C:\Users\Administrator\Desktop\practice\movie_metadata.csv')
print(data.head(10))#显示前10行
#-----------------------------将“country”整个列使用“ ”空字符串替换了
'''
data.country = data.country.fillna(' ')
print(data.head(6))'''#两种或多种显示不能同时用，只会显示第一种，所以'''掉
#-----------------------------或者用用“None Given”替换
data.country = data.country.fillna("None Given")
print(data.head(6))
#-----------------把上映年读成字符串而不是数值类型
data2 = pd.read_csv(r'C:\Users\Administrator\Desktop\practice\movie_metadata.csv', 
                    dtype={'title_year':str})
data2.title_year = data2.title_year.fillna("None Given")
data2['movie_title'].str.upper()#----大写
#最终的数据可能是有计算机生成的，那么，列名有可能也是计算机按照一定计算规律生成的。这些列名对计算机没有什么，但是对于人来说可能就不够友好，
#这时候，我们就需要重命名成对人友好的列名，代码如下：
'''
data2,rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})
'''
#像上面这样，我们就完成了两个列的重命名。需要注意的是，这个方法并没有提供inpalce 参数，我们需要将结果赋值给自己才可以：
data2 = data2.rename(columns = {'title_year':'release_date', 'movie_facebook_likes':'facebook_likes'})
print(data2.head(6))
#我们完成数据清洗之后，一般会把结果再以 csv 的格式保存下来，以便后续其他程序的处理。同样，Pandas 提供了非常易用的方法：
'''data2.to_csv(‘cleanfile.csv’ encoding=’utf-8’)'''

————————————————————————————————————————————

我们可以通过上面介绍的 Pandas 的方法查看数据，也可以通过传统的 Excel 程序查看数据，这个时候，我们可以开始记录数据上的问题，然后，我们再想办法解决问题。

Pandas 提供了一些选择的方法，这些选择的方法可以把数据切片，也可以把数据切块。下面我们简单介绍一下：

查看一列的一些基本统计信息：data.columnname.describe()
选择一列：data['columnname']
选择一列的前几行数据：data['columnsname'][:n]
选择多列：data[['column1','column2']]
Where 条件过滤：data[data['columnname'] >
condition]

处理缺失数据

缺失数据是最常见的问题之一。产生这个问题可能的原因

从来没有填正确过
数据不可用
计算错误

无论什么原因，只要有空白值得存在，就会引起后续的数据分析的错误。下面介绍几个处理缺失数据的方法：

为缺失数据赋值默认值
去掉/删除缺失数据行
去掉/删除缺失率高的列

添加默认值

我们应该去掉那些不友好的 NaN 值。但是，我们应该用什么值替换呢？在这里，我们就应该稍微掌握一下数据。对于我们的例子，我们检查一下“country”列。这一列非常简单，然而有一些电影没有提供地区，所以有些数据的值是
NaN。在我们的案例中，我们推断地区并不是很重要，所以，我们可是使用“”空字符串或其他默认值。

data.country= data.country.fillna('')

上面，我们就将“country”整个列使用“”空字符串替换了，或者，我们也可以轻易地使用“None Given”这样的默认值进行替换。如果想了解更多 fillna() 的详细信息参考
pandas.DataFrame.fillna。

使用数字类型的数据，比如，电影的时长，计算像电影平均时长可以帮我们甚至是数据集。这并不是最优解，但这个持续时间是根据其他数据估算出来的。这样的方式下，就不会因为像 0 或者 NaN这样的值在我们分析的时候而抛错。

data.duration = data.duration.fillna(data.duration.mean())

删除不完整的行

假设我们想删除任何有缺失值得行。这种操作太据侵略性，但是我们可以根据我们的需要进行扩展。

删除任何包含 NA 值的行是很容的：

data.dropna()

当然，我们也可以删除一整行的值都为 NA：

data.dropna(how='all')

我们也可以增加一些限制，在一行中有多少非空值的数据是可以保留下来的（在下面的例子中，行数据中至少要有 5 个非空值）

data.drop(thresh=5)

比如说，我们不想要不知道电影上映时间的数据：

data.dropna(subset=['title_year'])

上面的 subset 参数允许我们选择想要检查的列。如果是多个列，可以使用列名的 list 作为参数。

删除不完整的列

我们可以上面的操作应用到列上。我们仅仅需要在代码上使用 axis=1 参数。这个意思就是操作列而不是行。（我们已经在行的例子中使用了 axis=0，因为如果我们不传参数 axis，默认是axis=0。）

删除一正列为 NA 的列：

data.drop(axis=1, how='all')

删除任何包含空值的列：

data.drop(axis=1. how='any')

这里也可以使用像上面一样的 threshold 和 subset，更多的详情和案例，请参考pandas.DataFrame.dropna。

规范化数据类型

有的时候，尤其当我们读取 csv 中一串数字的时候，有的时候数值类型的数字被读成字符串的数字，或将字符串的数字读成数据值类型的数字。Pandas 还是提供了规范化我们数据类型的方式：

data = pd.read_csv('../data/moive_metadata.csv', dtype={'duration': int})

这就是告诉 Pandas ‘duration’列的类型是数值类型。同样的，如果想把上映年读成字符串而不是数值类型，我们使用和上面类似的方法：

data = pd.read_csv('./data/moive_metadata.csv', dtype={'title_year':str})

注意，需要记住的是，再次从磁盘上读取 csv ，确保规范化了我们的数据类型，或者在读取之前已经保存了中间结果。

必要的变换

人工录入的数据可能都需要进行一些必要的变换。

错别字
英文单词时大小写的不统一
输入了额外的空格

将我们数据中所有的 movie_title 改成大写：

data['movie_title'].str.upper()

同样的，干掉末尾空格：

data['movie_title'].str.strip()

这里并没有介绍关于英文的拼写错误的问题，可以参考模糊匹配。

重命名列名

最终的数据可能是有计算机生成的，那么，列名有可能也是计算机按照一定计算规律生成的。这些列名对计算机没有什么，但是对于人来说可能就不够友好，这时候，我们就需要重命名成对人友好的列名，代码如下：

data,rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})

像上面这样，我们就完成了两个列的重命名。需要注意的是，这个方法并没有提供
inpalce 参数，我们需要将结果赋值给自己才可以：

data = data.rename(columns = {‘title_year’:’release_date’, ‘movie_facebook_likes’:’facebook_likes’})

保存结果

我们完成数据清洗之后，一般会把结果再以 csv 的格式保存下来，以便后续其他程序的处理。同样，Pandas 提供了非常易用的方法：

data.to_csv(‘cleanfile.csv’ encoding=’utf-8’)