利用Python数据分析:数据加载、存储与文件格式(一)

import pandas as pd
from pandas import DataFrame,Series
import sys
import numpy as np
df = pd.read_csv('E:\Python for Data Analysis\pydata-book-master\ch06\ex1.csv')
df
pd.read_table('E:\Python for Data Analysis\pydata-book-master\ch06\ex1.csv',sep =',') # read_table需要指定分隔符
pd.read_csv('E:\Python for Data Analysis\pydata-book-master\ch06\ex2.csv',header = None) # 读取没有标题行的
pd.read_csv('E:\Python for Data Analysis\pydata-book-master\ch06\ex2.csv',names=['a','b','c','d','message'])
# 指定列名
names = ['a','b','c','d','message']
pd.read_csv('E:\Python for Data Analysis\pydata-book-master\ch06\ex2.csv',names= names,index_col='message')
#把message列作为索引
parsed = pd.read_csv('pydata-book-master/ch06/csv_mindex.csv',index_col=['key1','key2'])
# 层次化的索引
parsed
# 使用正则表达式作为read_table的分隔符
list(open('pydata-book-master/ch06/ex6.csv'))
result = pd.read_table('pydata-book-master/ch06/ex6.csv',sep='\s+')
result
pd.read_csv('pydata-book-master/ch06/ex4.csv',skiprows=[0,2,3]) # 跳过指定的行
result = pd.read_csv('pydata-book-master/ch06/ex5.csv')
result
result = pd.read_csv('pydata-book-master/ch06/ex5.csv',na_values=['NULL'])
result
# 使用一个字典为各列指定不同的NA标记的值
sentinels = {'message':['foo','NA'],'someting':['two']}
pd.read_csv('pydata-book-master/ch06/ex5.csv',na_values=sentinels)
#逐块读取文本文件
result = pd.read_csv('pydata-book-master/ch06/ex6.csv')
result
pd.read_csv('pydata-book-master/ch06/ex5.csv',nrows=5) # 只读取前五行
chunker = pd.read_csv('pydata-book-master/ch06/ex5.csv',chunksize=1000) #分成1000块
chunker
tot = Series([]) # 定义一个Series来保存后面的数字
for piece in chunker :
    tot = tot.add(piece['key'].value_counts(),fill_value = 0)
tot = tot.order(ascending=False)
tot[:10]
# 将数据写出到文本格式
data = pd.read_csv('pydata-book-master/ch06/ex5.csv')
data
data.to_csv('pydata-book-master/ch06/out.csv')
data.to_csv(sys.stdout,sep='|') #以指定的分隔符输出
data.to_csv(sys.stdout,na_rep='NULL') # 缺失值在结果中表示为空白符,也可以自己指定对应的符号
# 不输出行列的标签data.to_csv(sys.stdout,index=False,header=False)
data.to_csv(sys.stdout,index=False,cols=['a','b','c']) # 只写出一部分列并且指定列排序
dates = pd.date_range('1/1/2000',periods=7)
ts = Series(np.arange(7),index=dates)
ts.to_csv('pydata-book-master/ch06/tseries.csv') # Series to_csv方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值