参考文档:用户指南 — 熊猫 1.4.2 文档 (pydata.org)
Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。
pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
实际开发中的一些方法
import pandas as pd
# 读取数据
#通用的方法,将数据读取为表格形式,usecols列对应下标选择,sep分隔符
#csv_data = pd.read_csv('a1026a.csv', usecols=['speed', 'pace', 'tug'])
#data = np.array(csv_data[['speed', 'pace']])
#target = np.array(csv_data['tug'])
#X=pd.read_table(r'F:\zhangzhe_file\dating.txt',usecols=(0,1,2),sep='\t')
# Y=pd.read_table(r'F:\zhangzhe_file\dating.txt',usecols=(3,),sep='\t')
# print(type(Y))
# 操作数据
#print(X.head(5)) # 查看前几行的数据
#print(X.tail(4)) # 查看后几行的数据
#print(X.columns) #查看列名
#X.columns=['x1','x2','x3'] #修改列名
#print(X.head(5))
#print(X.values) #显示所有数据
#print(X.describe()) # 显示对数据的统计(数量,最大值,最小值,平均值等信息)
#print(X.max()) # 返回每列的最大值
# print(X.min()) #返回每列最小值
# print('-------')
# print(X.mean()) #返回每列的平均值
# print('-------')
# print(X.std()) #返回每列的方差
#print(X.T) #转置
#print(X.sort_index(axis=1)) #按照轴对索引进行排序
#print(X.sort_values(by=['salary','taobao'])) # 按照值对列进行排序,多个列排序,按照列表的顺序排序
#print(X['salary']) # 以key,value的形式访问一列数据
#print(X.salary) # 以属性的形式访问一列数据
#print(X[0:3]) # 做切片,只能以行做切片,不能以列做切片
#通过标签来选择查看数据
#print(X.loc[:,'salary':'taobao']) # 支持对行列做切片 支持列名 连续列
#print(X.loc[:,['salary','tv']])# 支持对行列做切片 支持列名 不连续列
#print(X.loc[1,'salary']) # 取出一个值
#print(X.at[1,'salary']) # 快速取值 同上
#print(X.loc[1,1]) # 错误的使用方式,列只支持列名的索引
# 通过下标来查看数据
#print(X.