读取数据
1、读取文本文件
(1)通过read_table读取文本文件
(2)通过read_csv来读取csv文件
区别在于table是用\t来分割,csv是用,来分隔
import pandas as pd
pd.read_table('./meal_order_info.csv',encoding='gbk',sep=',')
#encoding规定了编码格式,sep确定了分隔符号
2、文本文件的存储
data.to csv('./temp/temp.csv',index=false)
#index去掉行名词
3、excel的读取
read_excel
3、存储excel
to_excel
如果要在同一个工作表下存储2个表格
with pd.ExcelWriter('./tmp.xlsx')as w:
data.to_excel(w,sheet_name='a')
data.to_excel(w,sheet_name='b')
4、查询列表属性
给
data['dishes name'][:5]
#提取dishes name的前5行
data.iloc[2,2]
data.loc[2,'dishes_id']
data.loc[2:5,'dishes_id']
#2:5是闭区间
数据的修改与添加
data2=data.loc[data['order_id']=='458',:]
data2=['order_id']='45800'
#为数据添加列
data2['price']=data2['counts']*data2['amounts']
删除某行或某列
axis=0时,删除行;axis=1时,删除列
pandas描述统计分析
data.describe()
类别型特征的描述统计
data['dishes_name'].value_counts()
#频数统计
pandas提供categories类的方法,可以使用astype方法将目标特征的数据类型转换为类别,如将名称类型可以转换成类别进行统计
data['dishes_name'].astype('category').describe()
转换时间类型数据
1、将字符串时间转化为标准时间
dtype:object代表的是字符串时间
pd.to_datetime(data['lock_time'])
注意python时间存储是有范围的必须在时间存储范围内输入才不会报错
2、datetimeindex与periodtimeindex
datetimeindex是用来指代一系列时间点的一种数据结构;periodtimeindex是指代一系列时间段的数据结构
3、提取时间序列信息
a=data.loc[0,'lock_time']
a.year
4、timedelta可以正也可以负
data['lock_time']+pd.Timedelta(days=1,seconds=1)
给时间加上一天一秒