dataframe的创建与查看
#从数据源直接读取创建
df = pd.read_csv('BlackFriday.csv')#列索引默认第一行,行索引默认0123
df.head(20)#查看前20行
#指定分隔符为逗号
pd.read_table('ex1.csv',sep=',')
#文件中分隔符不统一,有单个空格、多个空格和制表符,将sep设置为:\s+
pd.read_csv('ex3.txt',sep='\s+')#\s 表示空格、回车(\r)、换行(\n)、tab等,'\s+'能够匹配多个连续出现s
#使用skiprows,跳过一些行
pd.read_csv('ex1.csv',header=None,skiprows=1)
#对于没有列索引的文件,不把数据的第一行作为列索引,而是自动添加列号
pd.read_csv('ex2.csv',header=None)
#将abcde设为列索引
pd.read_csv('ex2.csv',names=list('abcde'))
#指定某一列为行索引
df = pd.read_csv('ex2.csv',names=['a','b','c','d','message'],index_col='message')
#将两列作为行索引
pd.read_csv('csv_mindex.csv',index_col=['key1','key2'])
#只读取部分数据,加载部分数据到内存
agg = pd.read_csv('aggregate.csv',chunksize=10)#读取10行
agg.get_chunk(20)#agg是一个可迭代的对象
#另外一个参数,iterator
agg = pd.read_csv('aggregate.csv',iterator=True)#可迭代对象
agg.get_chunk(10)#获取数据,默认是全部数据
#写入csv
df.to_csv('ex_out.csv',header=None,index=None)
#读取xlsx形式文件
df = pd.read_excel('Online Retail.xlsx')