python数据分析(数据检索、加工与存储)

1、利用numpy和pandas对CSV文件进行写操作。

a):numpy的savetxt()函数是与loadtxt()相对应的一个函数,它能以诸如CSV之类的区隔型文件格式保存数组。

代码:

import numpy as np
np.random.seed(42)
a=np.random.randn(3,4)  #生成3行4列0到1之间的随机数组
a[2][2]=np.nan
print a
np.savetxt('np.csv',a,fmt='%.2f',delimiter=',',header="#1,#2,#3,#4")  #保存到文件CSV格式
运行结果:

[[ 0.49671415 -0.1382643   0.64768854  1.52302986]
 [-0.23415337 -0.23413696  1.57921282  0.76743473]
 [-0.46947439  0.54256004         nan -0.46572975]]


b):利用随机数组来创建pandas DataFrame。利用pandas的to_csv()方法可以为CSV文件生成DataFrame。

代码:

df=pd.DataFrame(a)
print df
df.to_csv('pd.csv',float_format='%.2f',na_rep="NAN!")
运行结果:

          0         1         2         3
0  0.496714 -0.138264  0.647689  1.523030
1 -0.234153 -0.234137  1.579213  0.767435
2 -0.469474  0.542560       NaN -0.465730

2、numpy.npy与pandas DataFrame

a):大部分情况下,用CSV格式存储文件时一个不错的主意,因为大部分程序设计语言都能处理这种格式,所以交流起来非常方便。然而,这种格式有一个缺陷,就是存储效率不是很高,原因是CSV及其他纯文本格式中含大量空白符。
代码:

import numpy as np
import pandas as dp
from tempfile import NamedTemporaryFile  #临时文件,不能被其他程序使用,用完销毁
from os.path import getsize
import pickle

np.random.seed(42)
a=np.random.randn(365,4)

temf=NamedTemporaryFile()
np.savetxt(temf,a,delimiter=',')
print "Size CSV file:",getsize(temf.name)

temf=NamedTemporaryFile()
np.save(temf,a)
temf.seek(0)
loaded=np.load(temf)
print "Shape:",loaded.shape
print "Size .npy file",getsize(temf.name)
运行结果:

Size CSV file: 36864
Shape: (365L, 4L)
Size .npy file 11760





  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值