引入pandas包
import pandas as pd
这里是引入pandas包,并起了个别名pd,方便使用时简单书写
获取数据
做开发的时候数据获取一般就两种,一种时读取文件,一种是查询数据库
从文件读取read_csv
Train_data=pd.read_csv('train.csv',index_col=['id'])
这里Test_data是DataFrame类型,DataFrame是由多个Series组成。查看
对DataFrame的操作有多种多样,可参考官方文档
在运用中比较常见的
1、head()。当数据量过大,查看数据样式时,使用
Train_data.head(1)
2、这里的列太多,显示不全,可以直接使用T转至树形查看
Train_data.head(1).T
3、在一个做报表的项目中用到的知识点
Train_data.drop_duplicates()#整行去重
Train_data.drop_duplicates(['grade'])#按一列去重
Train_data.grade.unique() #查看一列包含哪些值)
Train_data.loc[Train_data.grade=='A'] #查找
Train_data.employmentLength.fillna(value=0,inplace=True) #填充值
Train_data.groupby(['grade'],as_index=False).loanAmnt.agg('sum') #分组统计
这里列出的方法在使用时有多种情况,具体使用还是参考官方文档