1.pandans介绍:主要用于数据的处理和计算,提供了大量的库。对于机器学习来说,大部分的工作在于数据的清洗和操作,例如读取数据,对数据的分析等等。
2.pandas基本数据结构:
- Series:类似一维数据结构,但是元素可以是不同的数据类型
- DataFrame: 类似二维数据结构,是Series的容器
- Panel: 三维数据结构,是DataFrame的容器
案例分析:read_csv读取文件后,DataFrame数据类型的操作
import pandas as pd
import matplotlib.pyplot as plt
# read_data是DataFrame类型,会标识行的个数以及每列的信息
read_data = pd.read_csv('./Data/test.csv')
# 获取和打印整个数据,以DataFrame的形式和矩阵的形式
print(read_data, read_data.values)
# 获取和打印前三行的数据信息,分别为DataFrame 和 矩阵的数据类型
print(read_data[0:3], read_data[0:3].values)
# 获取和打印某一列的数据信息,必须用矩阵的形式,DataFrame没有提供列哈希查询
print(read_data.values[:, 1])
# 如果知道某列的含义标识,那么可以直接再DataFrame类型下哈希查找,结果还是DataFrame类型,再转换成矩阵类型
print(read_data['Id'], read_data['Id'].values)
# 将筛选出来的列用图描述
read_data['Id'].plot(figsize=(5,6)) # 设置图大小
plt.show()
# 选择多列
print(read_data[['Id', 'Col_10']])
# 选择多列以及筛选行
print(read_data[['Id', 'Col_10']][1:5])
# 统计列的值出现次数, 若需要出现次数的前10个,访问列表前十,并显示下
print(read_data['Id'].value_counts(), read_data['Id'].value_counts()[:10])
read_data['Id'].value_counts()[:10].plot(kind='bar')
plt.show()
以上是对读取数据的简单操作