DataFrame
关于pandas库中DataFrame的使用,DataFrame表示的是一个有序的表格,DataFrame有自己的行索引和列索引,这与Series不同,Series只有列索引,DataFrame每一列,每一行都可以是不同的数据类型,接下来让我们来看一下DataFrame的使用
创建DataFrame
import pandas as pd
data = pd.DataFrame([[1, 2, 3],
[4, 5.9, 6],
[1, 2, 3],
['%7', 8, 9]], columns=["feature_1", "feature_2", "label"])
print(data)
效果如下:
这里我们可以看出原数据只有5.9是浮点数,但DataFrame自动的将这个数所在的一列都变成了浮点数,也就可以认为第一列是字符串类型这里我们要查看类型只需要用dtypes方法来查看,
结果清晰的看出第一列是字符串类型,这里的object我们可以理解为python中的str类型,而第二列也变成了浮点型
关于DataFrame的增删改查
删除
del data["label"]
print(data)
查看字段信息
print(data.info())
查看统计信息
print(data.describe())
注意:因为feature_1是字符串类型所以不能对其进行统计
修改列表名
# data.rename(columns={'label':'feature_3'}, inplace = True)
data1 = data.rename(columns={'label':'feature_3'})
print(data1)
这是修改列表名的两种写法,加上inplace = True就不需要返回值来接收,不加则需要查看的是返回值的信息
替换字符串
data.replace('%', '', inplace=True,regex=True)
print(data)
数据去重
data1 = data.drop_duplicates()
print(data)
按条件修改元素
data.loc[a['feature_1'] == 1, 'feature_1'] = 0
print(data)