文本文件读写3种方法:
第一种方法
直接读入
file1 = open("test.txt")
file2 = open("output.txt","w")
while True:
line = file1.readline()
#这里可以进行逻辑处理
file2.write('"'+line[:s]+'"'+",")
if not line:
break
#记住文件处理完,关闭是个好习惯
file1.close()
file2.close()
读文件有3种方法:
- read()将文本文件所有行读到一个字符串中。
- readline()是一行一行的读
- readlines()是将文本文件中所有行读到一个list中,文本文件每一行是list的一个元素。 优点:readline()可以在读行过程中跳过特定行。
第二种方法:
文件迭代器,用for循环的方法
file2 = open("output.txt","w")
for line in open("test.txt"):
#这里可以进行逻辑处理
file2.write('"'+line[:s]+'"'+",")
第三种方法:
文件上下文管理器
#打开文件
#用with..open自带关闭文本的功能
with open('somefile.txt', 'r') as f:
data = f.read()
# loop整个文档
with open('somefile.txt', 'r') as f:
for line in f:
# 处理每一行
# 写入文本
with open('somefile.txt', 'w') as f:
f.write(text1)
f.write(text2)
...
# 把要打印的line写入文件中
with open('somefile.txt', 'w') as f:
print(line1, file=f)
print(line2, file=f)
二进制文件读写
Python默认读取的都是文本文件。要是想要读取二进制文件,需要把刚刚的'r'改成'rb'.
f = open('EDC.jpg', 'rb')
print(f.read())
# 输出 '\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节
简单说就是,任何非标准的文本文件(对于Py2来说,标准是ASCII,对于Py3来说,标准是unicode),你就需要用二进制读入这个文件,然后再用 .decode('...')的方法来解码这个二进制文件:
f = open('DegangGuo.txt', 'rb')
# 读入郭德纲老师的作文, 但是郭老师用的是参合着错别字的繁体编码,假设叫个"DeyunCode"
# 那么你读入以后,就需要解码它
u = f.read().decode('DeyunCode')
文件和目录操作
在图形界面的操作系统下,这个很简单,就是右键/拖拽 等等。
但是在Python的代码内该怎么做呢?
基本操作
用Python内置的os模块直接调用操作系统提供的接口函数:
import os
os.name
这里是通过OS告诉我们 我的操作系统的名字。 如果是posix,说明系统是#nix族,如果是nt,就是Windows
我们可以调用uname()来看看具体信息
环境变量
在操作系统中定义的环境变量,全部保存在os.environ这个dict中,可以直接查看:
os.environ
操作文件与目录
查看、创建和删除目录可以这么调用:
# 当前目录的绝对路径
os.path.abspath('.')
# 比如这里返回:'/Users/EDC'
# 在某个目录下创建一个新目录,
# 首先把新目录的完整路径表示出来:
os.path.join('/Users/EDC', 'Pictures')
# 这里你得到的是一个字符串,代表了新的文件夹是这个位置:/Users/EDC/Pictures/
# 自己也可以拼起来,但是怕不同操作系统下的区分符问题,最好是用OS接口
# 但是你还并没有创建任何的文件
# 需要用mkdir创建:
os.mkdir('/Users/EDC/Pictures/')
# 同理,删除一个文件夹
os.rmdir('/Users/EDC/Pictures/')
同样的道理,要拆分路径时,也不要直接去拆字符串,而要通过os.path.split()函数,这样可以把一个路径拆分为两部分,后一部分总是最后级别的目录或文件名:
os.path.split('/Users/EDC/Pictures/AJiao.avi')
# ('/Users/EDC/Pictures/', 'AJiao.avi')
或者靠os.path.splitext()得到文件扩展名:
os.path.splitext('/Users/EDC/Pictures/AJiao.avi')
# ('/Users/EDC/Pictures/AJiao', '.avi')
文件重命名:
os.rename('JAV-001.avi', '学习资料')
删除文件
os.remove('学习资料')
尴尬的是。。复制文件并不存在于os里。。(⊙﹏⊙)b
原因是复制这个操作,不是由操作系统提供的系统调用。
我们可以用上面的代码,读入一个文件,再写入一个文件,来达到复制的目的。
当然,Python作为一个Glue Language的调性,总有第三方库来帮我们stay lazy:
Shutil就是其中一个。基本上可以看做是os的补充。它提供copyfile()方法,来复制你的文件:
import shutil
shutil.copyfile('/path/to/file', '/path/to/other/file')
这个库用起来比os爽很多。你们可以自己百度一下。看看文档。比较简单易用
小例子:
通过我们之前提过的方法,我们来看看怎么完成如下任务:
- 列出当前目录下的所有目录:
[x for x in os.listdir('.') if os.path.isdir(x)]
# 你会得到一个list of 文件夹
- 只想列出.py文件:
[x for x in os.listdir('.') if os.path.isfile(x) and os.path.splitext(x)[1]=='.py']
# 列出所有的py文件
序列化和反序列化
什么是序列化?
程序运行的过程中,所有变量都是在内存中操作的,当程序一旦执行完毕,结束退出后,变量占有的内存就被操作系统回收了。 因此我们需要将某些数据持久化存储到磁盘中,下次运行的时候从磁盘中读取相关数据。
我们将变量从内存中变成可以存储或传输的过程称之为序列化,在Python中叫做pickling,在其它语言中也称之为 serialization、marshaling、flattening等等,说的都是一个意思。 反之,则为反序列化,称之为unpickling,把变量内容从序列化的对象重新读取到内存中。
序列化:
import pickle
# 此处定义一个dict字典对象
d = dict(name='思聪', age=29, score=80)
str = pickle.dumps(d) # 调用pickle的dumps函数进行序列化处理
print(str)
# 你可以看看它长什么样子
# 定义和创建一个file文件对象,设定模式为wb
f = open('dump.txt', 'wb')
# 将内容序列化写入到file文件中
pickle.dump(d, f)
f.close() # 最后关闭掉文件资源
反序列化:
就是把刚刚的搞成的“序列化”的码,转成python看得懂的object
import pickle
# 从之前序列化的dump.txt文件里边读取内容
f = open('dump.txt', 'rb') # 设定文件选项模式为rb
d = pickle.load(f) # 调用load做反序列处理过程
f.close() # 关闭文件资源
print(d)
print('name is %s' % d['name'])
稍微注意一下,python2和python3里面的pickle不一样。
为了保证2,3的和谐,你可以用这个方法来保证你import正确:
try:
import cPickle as pickle
except ImportError:
import pickle
用JSON实现序列和反序列化
同时,也许你们也会发现,这个pickle完的东西,
�}q(XnameqX思聪qXageqKXscoreqKPu.
是让人看不懂的。只有python自己可以把它unpickle回来。如果我们有一个文件现在存下来,并且日后要在其他地方用到的话,
我们可以用JSON来做序列化。Python的数据结构跟Json有非常完美的兼容:
JSON类型 | Python类型 |
---|---|
{} | dict |
[] | list |
"string" | 'str'或者u'unicode' |
1234.56 | int或float |
true/false | True/False |
null | None |
如果你有一个比较结构化的数据想要序列化,并且想要别的地方别的语言也能看得懂。那么你可以用JSON来做:
import json
# 定义dict字典对象
d1 = dict(name='小王', age=20, score=80)
str = json.dumps(d1) # 调用json的dumps函数进行json序列化处理
print(str)
# 调用json的loads函数进行反序列化处理
d2 = json.loads(str)