一、读取数据
1、
import pandas as pd
import numpy as np
from datetime import datetime
from pandas import Series, DataFrame
读取x.xls文件
df = pd.read_excel('D:/数据练习/mb.xls')
df = pd.read_excel(r'D:\数据练习\mb.xls.xls')
读取csv格式Excel表
df = pd.read_csv('E:/工作文件/周报/周数据/测试/0902-0908/an-商品汇总-uv.xls')
df = pd.read_csv(r'E:\工作文件\周报\周数据\测试\0902-0908\an-商品汇总-uv.xls')
读取文件夹
import os
file_list_june = os.listdir(r'C:\Users\数据\合并')
读取TXT文件
df = pd.read_table(r'C:\Users\Administrator\Desktop\haha.txt')
with open(r'C:\Users\Administrator\Desktop\haha.txt', 'r') as f:
df = f.readlines()
df = np.loadtxt(r'C:\Users\Administrator\Desktop\haha.txt') # 将txt文件存为numpy数组
写入数据
data.to_excel('C:/Users/Administrator/Desktop/'+'商品分类.xlsx')
data.to_excel(r'C:\Users\Administrator\Desktop\\'+'商品分类.xlsx')
data.to_excel(r'C:\Users\Administrator\Desktop/'+'商品分类.xlsx')
资料收集
利用Python处理Excel数据
【学习笔记】python实现excel数据处理
Python玩转数据之excel
一、创建文件
1、手动excel
2、python创建
import pandas as pd
df =pd.DataFrame()
df.to_excel('D:/Temp/output.xlsx')
print('!Done')
代码解析:在D盘中Temp文件夹里创建一个output.xlsx表格
3、创建添加数据
import pandas as pd
df =pd.DataFrame({'ID':[1,2,3],'Name':['Tim','Victor','Nick']})
df.to_excel('D:/Temp/output.xlsx')
print('!Done')
4、添加索引
import pandas as pd
df =pd.DataFrame({'ID':[1,2,3],'Name':['Tim','Victor','Nick']})
df=df.set_index('ID')
df.to_excel('D:/Temp/output.xlsx')
print('!Done')
5、查看已有excel表的数据,
a.读取表有多少行和列
import pandas as pd
people=pd.read_excel('D:/Temp/zhsj.xlsx')
print(people.shape)
b.查看列的名称
print(people.columns)
c.表头的数据
print(people.head())#默认前5行
print(people.head(3)) #前3行的数据
print(people.tail(3)) #末尾3行的数据
d.程序的默认是从0开始,当读取第1行数据
import pandas as pd
people=pd.read_excel('D:/Temp/zhsj.xlsx',header=1)
print(people.columns)
5.行与列的交叉点是单元格
eg:
import pandas as pd
d ={'x':100,'y':200,'z':300}
print(d.values())
import pandas as pd
d ={'x':100,'y':200,'z':300}
print(d['x'])
import pandas as pd
d ={'x':100,'y':200,'z':300}
s1=pd.Series(d)
print(s1)
第2种写法
import pandas as pd
s1=pd.Series([100,200,300],index=['x','y','z'])
print(s1)
import pandas as pd
d ={'x':100,'y':200,'z':300}
s1=pd.Series(d)
print(s1.index)
第2种写法
import pandas as pd
L1=[100,200,300]
L2=['x','y','z']
s1=pd.Series(L1,index=L2)
print(s1.index)
6. 只有将它加到DataFranme里我们才能确定它是行还是列。今天研究一下怎么用pandas生成下面的表格。
#eg6
import pandas as pd
s1 = pd.Series([ 1, 2, 3 ], index=[ 1, 2, 3 ], name='A')
s2 = pd.Series([ 10, 20, 30 ], index=[ 1, 2, 3 ], name='B')
s3 = pd.Series([ 100, 200, 300 ], index=[ 1, 2, 3 ], name='C')
df = pd.DataFrame({s1.name: s1, s2.name: s2, s3.name: s3})
print(df)
如果以list的形式加到DataFrame ,Series 是行
import pandas as pd
#eg7
s1 = pd.Series([1,2,3],index=[1,2,3],name='A')
s2 = pd.Series([10,20,30],index=[1,2,3],name='B')
s3 = pd.Series([100,200,300],index=[1,2,3],name='C')
df = pd.DataFrame([s1,s2,s3])
print(df)
观察上面的eg6以及它的输出我们可以知道,每个Series和DataFrame它们都有自己的index,index之间有何关系?
答:index之间存在一种“对齐关系”:index相同的值对成一行