读文件
要以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符。
>>> f = open('/Users/michael/test.txt', 'r')
如果文件不存在,open()函数就会抛出一个IOError的错误,并且给出错误码和详细的信息告诉你文件不存在。
文件打开成功后,调用read()方法读取文件内容,把内容读到内存,用一个str对象表示。
方法 | 功能 | 适用情况 |
read() | 一次性读取全部内容 | 文件小 |
read(size) | 每次最多读取size个字节的内容 | 不能确定文件大小 |
readline() | 每次读取一行内容 | |
readlines() | 依次读取所有内容并按行返回list | 配置文件 |
最后调用close()方法关闭文件。
为了防止IOError,一般可采用如下写法
try:
f = open('/path/to/file', 'r')
print f.read()
finally:
if f:
f.close()
更简洁的写法是:
with open('/path/to/file', 'r') as f:
print f.read()
file-like Object
像open()函数返回的这种有个read()方法的对象,统称为file-like Object。除了file外,还可以是内存的字节流、网络流等。file-like Object不要求从特定类继承,只要写个read()方法就行。
二进制文件
用‘rb’模式打开文件即可。
import codecs
with codecs.open('/Users/michael/gbk.txt', 'r', 'gbk') as f:
f.read() # u'\u6d4b\u8bd5'
>>> f = open('/Users/michael/test.jpg', 'rb')
>>> f.read()
'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节
字符编码
要读取非ASCII编码的文本文件,就必须以二进制模式打开,再解码。
>>> f = open('/Users/michael/gbk.txt', 'rb')
>>> u = f.read().decode('gbk')
>>> u
u'\u6d4b\u8bd5'
>>> print u
测试
Python还提供了一个codecs模块帮我们在读文件时自动转换编码,直接读出unicode。
import codecs
with codecs.open('/Users/michael/gbk.txt', 'r', 'gbk') as f:
f.read() # u'\u6d4b\u8bd5'
写文件
写文件和读文件是一样的,唯一区别是调用open()函数时,传入标识符‘w’或‘wb’表示写文本文件或写二进制文件。
with open('/Users/michael/test.txt', 'w') as f:
f.write('Hello, world!')
要写入特定编码的文本文件,使用codecs写入unicode,由codecs自动转换成指定编码。
操作文件和目录
序列化