数据读取
- 读取csv文本文件(csv文件一般编码方式为gbk)
pd.read_table(r'路径\info.csv',encoding='编码方式',seq=',')
pd.read_csv(r'路径\info.csv',encoding='编码方式',seq=',')
- 读取excel文件
pd.read_excel(r'路径\detail.xlsx',sheet_name=1,header=1)
参数:sheet_namee= 1,读取第一张表格的数据,index_col指定第几列为行索引,header=1指定第一行为列索引,
- 合并多工作表的文件:
workbook = xlrd.open_workbook("meal_order_detail.xlsx")
sheets = workbook.sheet_names()
total = DataFrame()# 定义存储所有数据的容器
for i in range(len(sheets)):# 循环遍历所有sheet,汇总多表中的所有数据
data=pd.read_excel("./matplot_data/meal_order_detail.xlsx",sheetname=i,index_col=False)
total = total.append(data)#需要有变量接收返回值
fp = pd.ExcelWriter("output.xlsx")# 将数据保存为文件
total.to_excel(write,"sheet1")
fp.save()
还可以使用拼接或堆叠的方式进行合并数据
数据类型
- 创建Series类型数据(两种方式):
s1 = pd.Series(['w','e','r'],index=[2,3,4])
s2 = pd.Series({
'a':1,'b':2,'c':3}) #key:为索引值,values:数据值
series意为序列,结合了字典与列表的特点,既存在类键值对,又可以使用索引进行取值
- 创建DataFram类型数据(两种方式)
#第一种:以数组形式传入数据,可指定行列索引
df1 = pd.DataFrame([[1,2,3],[4,6,7]],columns=[0,0,0],index=[1,1])
#coolumns为列索引,index为行索引
#第二种:以键值对方式传入数据,也可以指定行列索引
df2 = pd.DataFrame({
'第一列':[1,2,3,4],'第二列':[5,6,7,8]},index=[1,2,3,4])
#key为列索引,index为行索引
dataframe中的方法
-
data.columns#获取所有列名,可以用来作为键进行取值。例:
print('order_id列的数据',data['order_id'])
-
data.size#元素的所有个数
-
data.ndim#维度
-
data.T#转置
-
type(data.values)) # 数据类型为数组类型(numpy.ndarray)
-
data.shape #查