panda速查表:
https://www.kesci.com/apps/home/project/59e389b54663f7655c48f518
http://url.cn/5IvlsYz
https://www.cnblogs.com/big-face/p/5418416.html
http://jingyan.baidu.com/season/43456?pn=0
http://www.cnblogs.com/kylinlin/p/5226860.html
1、可以使用tolist()函数转化为list
food_info.columns.tolist()
2、pandas时间序列的处理
http://blog.csdn.net/pipisorry/article/details/52209377
比如12:14:15
str.split(':').map(lambda x:x[1]):可获取时间的片段,14
map(lambda x:x[1])表示下标;
3、可采用astype改变类型;
2)date = ''.join(Ids)#将list类型转换为str类型
4、groupby之后,填充控制:fillna(0)
整合后,需要修改名字,需要添加在后面添加.reset_index()
eg:test_ab_csv.groupby(['SHEDID','time'])['USETIME'].count().fillna(0).reset_index()
5、grouopby的时候,可以groupby(['SHEDID','time'])['USETIME'].count类似这样,意为求shedid和time分类后的总数,usetime为统计的数量;用名字代替;
6、统计种类:value_counts()
7、获取某几列:x=test_comit_jieche[['SHEDID','time']]
http://blog.csdn.net/leonis_v/article/details/51832916(待学习)
8、查看类型:xxx.dtypes
9、获取列
ix[:,[0,1,2]] #不知道列名只知道列的位置时
10、获取列数
http://blog.csdn.net/u012189747/article/details/78203364?locationNum=3&fps=1
df.columns.size .shape[1] #列数
获取第三行数据:
df.iloc[:,0].size#行数 3
获取索引为0的数据:print df.ix[[0]].index.values[0]#索引值 0
print df.ix[[0]].values[0][0]#第一行第一列的值 11print df.ix[[1]].values[0][1]#第二行第二列的值 121
11、删除行或者列
df = df.drop('index', axis = 1)# 可以删除多列
12、chipo数据集中item_name的每一项有多少个、且按从大到小排序
chipo.item_name.value_counts().head(1)
10、去除某一列
train.drop(['小类编码','小类名称'],axis=1,inplace = True)
11、去重
train_dat = train_csv.drop_duplicates('ID')[['ID']]
train_dat = train_csv['ID'].unique()
http://blog.csdn.net/fennvde007/article/details/36651109
http://www.it165.net/pro/html/201404/12637.html
15、对数列进行排序:数据进行排序,用到了sort(columns='')
16、某一列有多少种 ===种类-------nunique()