Python 文件读写、序列化

文本文件读写3种方法:

第一种方法

直接读入

file1 = open("test.txt") 
file2 = open("output.txt","w") 

while True: 
    line = file1.readline() 
    #这里可以进行逻辑处理 
    file2.write('"'+line[:s]+'"'+",") 
    if not line: 
        break 
#记住文件处理完,关闭是个好习惯 
file1.close() 
file2.close() 

读文件有3种方法:

  • read()将文本文件所有行读到一个字符串中。
  • readline()是一行一行的读
  • readlines()是将文本文件中所有行读到一个list中,文本文件每一行是list的一个元素。 优点:readline()可以在读行过程中跳过特定行。

第二种方法:

文件迭代器,用for循环的方法

file2 = open("output.txt","w") 
for line in open("test.txt"): 
      #这里可以进行逻辑处理 
    file2.write('"'+line[:s]+'"'+",") 

第三种方法:

文件上下文管理器

#打开文件
#用with..open自带关闭文本的功能
with open('somefile.txt', 'r') as f: 
    data = f.read() 

# loop整个文档
with open('somefile.txt', 'r') as f: 
    for line in f: 
        # 处理每一行

# 写入文本 
with open('somefile.txt', 'w') as f: 
    f.write(text1) 
    f.write(text2) 
    ... 

# 把要打印的line写入文件中 
with open('somefile.txt', 'w') as f: 
    print(line1, file=f) 
    print(line2, file=f)

二进制文件读写

Python默认读取的都是文本文件。要是想要读取二进制文件,需要把刚刚的'r'改成'rb'.

f = open('EDC.jpg', 'rb')
print(f.read())
# 输出 '\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节

简单说就是,任何非标准的文本文件(对于Py2来说,标准是ASCII,对于Py3来说,标准是unicode),你就需要用二进制读入这个文件,然后再用 .decode('...')的方法来解码这个二进制文件:

f = open('DegangGuo.txt', 'rb')
# 读入郭德纲老师的作文, 但是郭老师用的是参合着错别字的繁体编码,假设叫个"DeyunCode"
# 那么你读入以后,就需要解码它
u = f.read().decode('DeyunCode')

文件和目录操作

在图形界面的操作系统下,这个很简单,就是右键/拖拽 等等。

但是在Python的代码内该怎么做呢?

基本操作

用Python内置的os模块直接调用操作系统提供的接口函数:

import os
os.name

这里是通过OS告诉我们 我的操作系统的名字。 如果是posix,说明系统是#nix族,如果是nt,就是Windows

我们可以调用uname()来看看具体信息

环境变量

在操作系统中定义的环境变量,全部保存在os.environ这个dict中,可以直接查看:

os.environ

操作文件与目录

查看、创建和删除目录可以这么调用:

# 当前目录的绝对路径
os.path.abspath('.')
# 比如这里返回:'/Users/EDC'

# 在某个目录下创建一个新目录,
# 首先把新目录的完整路径表示出来:
os.path.join('/Users/EDC', 'Pictures')
# 这里你得到的是一个字符串,代表了新的文件夹是这个位置:/Users/EDC/Pictures/
# 自己也可以拼起来,但是怕不同操作系统下的区分符问题,最好是用OS接口
# 但是你还并没有创建任何的文件

# 需要用mkdir创建:
os.mkdir('/Users/EDC/Pictures/')

# 同理,删除一个文件夹
os.rmdir('/Users/EDC/Pictures/')

同样的道理,要拆分路径时,也不要直接去拆字符串,而要通过os.path.split()函数,这样可以把一个路径拆分为两部分,后一部分总是最后级别的目录或文件名:

os.path.split('/Users/EDC/Pictures/AJiao.avi')
# ('/Users/EDC/Pictures/', 'AJiao.avi')

或者靠os.path.splitext()得到文件扩展名:

os.path.splitext('/Users/EDC/Pictures/AJiao.avi')
# ('/Users/EDC/Pictures/AJiao', '.avi')

文件重命名:

os.rename('JAV-001.avi', '学习资料')

删除文件

os.remove('学习资料')

尴尬的是。。复制文件并不存在于os里。。(⊙﹏⊙)b

原因是复制这个操作,不是由操作系统提供的系统调用。

我们可以用上面的代码,读入一个文件,再写入一个文件,来达到复制的目的。

当然,Python作为一个Glue Language的调性,总有第三方库来帮我们stay lazy:

Shutil就是其中一个。基本上可以看做是os的补充。它提供copyfile()方法,来复制你的文件:

import shutil  
shutil.copyfile('/path/to/file', '/path/to/other/file')  

这个库用起来比os爽很多。你们可以自己百度一下。看看文档。比较简单易用

小例子:

通过我们之前提过的方法,我们来看看怎么完成如下任务:

  • 列出当前目录下的所有目录:
[x for x in os.listdir('.') if os.path.isdir(x)]
# 你会得到一个list of 文件夹
  • 只想列出.py文件:
[x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.py']
# 列出所有的py文件

序列化和反序列化

什么是序列化?

程序运行的过程中,所有变量都是在内存中操作的,当程序一旦执行完毕,结束退出后,变量占有的内存就被操作系统回收了。 因此我们需要将某些数据持久化存储到磁盘中,下次运行的时候从磁盘中读取相关数据。

我们将变量从内存中变成可以存储或传输的过程称之为序列化,在Python中叫做pickling,在其它语言中也称之为 serialization、marshaling、flattening等等,说的都是一个意思。 反之,则为反序列化,称之为unpickling,把变量内容从序列化的对象重新读取到内存中。

序列化:

import pickle

# 此处定义一个dict字典对象
d = dict(name='思聪', age=29, score=80)
str = pickle.dumps(d) # 调用pickle的dumps函数进行序列化处理
print(str)
# 你可以看看它长什么样子

# 定义和创建一个file文件对象,设定模式为wb
f = open('dump.txt', 'wb')
# 将内容序列化写入到file文件中
pickle.dump(d, f)
f.close() # 最后关闭掉文件资源

反序列化:

就是把刚刚的搞成的“序列化”的码,转成python看得懂的object

import pickle

# 从之前序列化的dump.txt文件里边读取内容
f = open('dump.txt', 'rb') # 设定文件选项模式为rb
d = pickle.load(f) # 调用load做反序列处理过程
f.close() # 关闭文件资源
print(d)
print('name is %s' % d['name'])

稍微注意一下,python2和python3里面的pickle不一样。

为了保证2,3的和谐,你可以用这个方法来保证你import正确:

try:
    import cPickle as pickle
except ImportError:
    import pickle

用JSON实现序列和反序列化

同时,也许你们也会发现,这个pickle完的东西,

�}q(XnameqX思聪qXageqKXscoreqKPu.

是让人看不懂的。只有python自己可以把它unpickle回来。如果我们有一个文件现在存下来,并且日后要在其他地方用到的话,

我们可以用JSON来做序列化。Python的数据结构跟Json有非常完美的兼容:

JSON类型Python类型
{}dict
[]list
"string"'str'或者u'unicode'
1234.56int或float
true/falseTrue/False
nullNone

如果你有一个比较结构化的数据想要序列化,并且想要别的地方别的语言也能看得懂。那么你可以用JSON来做:

import json
 
# 定义dict字典对象
d1 = dict(name='小王', age=20, score=80)
str = json.dumps(d1) # 调用json的dumps函数进行json序列化处理
print(str)
 
# 调用json的loads函数进行反序列化处理
d2 = json.loads(str)

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值