对文件的操作
open方法
fl=open(file_name[,access_mode][,buffering])
例:
fl = open('C:\\xxx\\test.txt','w') #直接打开一个文件,如果文件不存在则创建文件
注意:
写文件的路径时,反斜杠\
由于是转义字符,所以要写两遍:\\
open有以下一些模式:
w 以写方式打开,
a 以追加模式打开 (从 EOF 开始, 必要时创建新文件)
r+ 以读写模式打开
w+ 以读写模式打开 (参见 w )
a+ 以读写模式打开 (参见 a )
rb 以二进制读模式打开
wb 以二进制写模式打开 (参见 w )
ab 以二进制追加模式打开 (参见 a )
rb+ 以二进制读写模式打开 (参见 r+ )
wb+ 以二进制读写模式打开 (参见 w+ )
ab+ 以二进制读写模式打开 (参见 a+ )
对于创建的fl来说,还有以下常用方法或属性:
fl.closed:正确关闭后返回true,否则返回false
fl.mode:返回文件打开方式
fl.name:返回文件名
fl.close():刷新缓冲区,并关闭该文件
write和read方法
fl.write(str):将str写入fl文件中
fl.read([count]):若传入count参数,就会读取相应个数的字节数
除了read,还有两个方法:readline和readlines
fr=open('...','r')
x=fr.read() #读取整个文件,返回str字符串类型的数据
y=fr.readline() #读取文件的某一行,并返回str字符串类型
z=fr.readlines() #按行读取整个文件内容,并返回str元素的list列表类型
tell方法:返回文件内的当前位置
a=fl.tell()
seek方法:改变文件内的当前位置
seek(offset[,from]):offset表示移动字节数,from表示参考位置(0表示开头,1表示当前位置,2表示从末尾)
>>a=fl.seek(0,0) #重新定位到文件头
codecs模块:处理任意编码字符
为了方便地对含有中文等编码字符的文件进行处理,需要使用codecs模块。
有一点需要注意:
python进行编码转换时会借助内部编码,具体转换过程是这样的:
原有编码 -> 内部编码 -> 目的编码
python的内部编码是unicode,但是unicode有两种编码格式:一是UCS-2,另一种是UCS-4。当一个字符串被转换为内部编码后,它就不是str类型了,而是unicode类型:
a = " 风卷残云 "
print(type(a))
b = a.encode("utf-8")
print(type(b))
print(b)
输出:
<class 'str'>
<class 'bytes'>
b'\xe9\xa3\x8e\xe5\x8d\xb7\xe6\xae\x8b\xe4\xba\x91 '
这里b被转换成了utf-8的字符串,直接输出它是乱码。
codecs.open方法
用codecs提供的open方法来指定所打开文件的语言编码,它会在读取的时候自动转换为内部unicode。
bfile = codecs.open( " dddd.txt " , ' r ' , " utf-8 " )
ss = bfile.read()
bfile.close()
应用实例:读取txt文件中的数据
假设txt文件中存有若干列的数据,读取数据,并将某一列的数据存入一个list。
例如,在C:\\Users\\Eric\\Desktop\\a.txt
中存有以下数据:
1 2.33
2 4.55
3.4 534.4
1.2 23.7
将它的第二列取出,存入名为new_lst的list中,可以如下操作:
from numpy import *
import numpy as np
import codecs #导入codecs库
new_lst=[]
f = codecs.open('C:\\Users\\Eric\\Desktop\\a.txt','r','utf-8')
for fileLine in f: #对每一行进行处理
lst=fileLine.split() #按照空格进行分割
new_lst.append( (float)(lst[1]) ) #将lst的第二列存入new_lst中
f.close()
print(new_lst)
其运行结果为:
[2.33, 4.55, 534.4, 23.7]
os模块:帮助执行文件处理
Python的os模块包含普遍的操作系统功能。如果你希望程序能够有平台无关性,这个模块是尤为重要的。
os.name:输出字符串指示正在使用的平台。如果是window 则用'nt'表示,对于Linux/Unix用户,它是'posix'
os.system():运行shell命令
>>> os.system('dir')
0
>>> os.system('cmd') #启动dos
os.rename('current name','new name'):重命名
os.remove(file_name):删除文件
os.mkdir('目录名'):创建新的目录
os.chdir('目录名'):改变当前目录,进入新的指定目录
os.getcwd():显示当前工作目录
os.rmdir('目录名'):删除目录,前提是目录下已经清空
os.listdir('目录名'):获取指定目录中的内容
>>os.listdir(os.getcwd()):获得了当前工作目录下的内容
path部分:
os.path.split():函数返回一个路径的目录名和文件名
>>> os.path.split('C:\\Python25\\abc.txt')
('C:\\Python25', 'abc.txt')
os.path.isfile()和os.path.isdir()函数分别检验给出的路径是一个文件还是目录。
>>> os.path.isdir(os.getcwd())
True
>>> os.path.isfile('a.txt')
False
os.path.exists():函数用来检验给出的路径是否真的存在
>>> os.path.exists('C:\\Python25\\abc.txt')
False
>>> os.path.exists('C:\\Python25')
True
os.path.abspath(name):获得绝对路径
os.path.normpath(path):规范path字符串形式
os.path.getsize(name):获得文件大小,如果name是目录返回0L
os.path.splitext():分离文件名与扩展名
>>> os.path.splitext('a.txt')
('a', '.txt')
os.path.join(path,name):连接目录与文件名或目录
>>> os.path.join('c:\\Python','a.txt')
'c:\\Python\\a.txt'
>>> os.path.join('c:\\Python','f1')
'c:\\Python\\f1'
os.path.basename(path):返回文件名
>>> os.path.basename('a.txt')
'a.txt'
>>> os.path.basename('c:\\Python\\a.txt')
'a.txt'
os.path.dirname(path):返回文件路径
>>> os.path.dirname('c:\\Python\\a.txt')
'c:\\Python'
os.walk(path):在目录树中游走,输出在当前目录中的文件名
>>>for root, dirs, files in os.walk('/opt/'):
>>>print(root) #当前遍历到的目录的根
>>>print(dirs) #当前遍历到的目录的根下的所有目录
>>>print(files) #当前遍历到的目录的根下的所有文件
示例:批量删除某文件夹下指定类型的所有文件
import os
def del_files(path):
for root, dirs, files in os.walk(path):
for name in files:
if name.startswith("."):
os.remove(os.path.join(root, name))
print("Delete File: " + os.path.join(root, name))
pickle模块:对文件进行序列化和反序列化操作
序列化操作:将程序中的数据对象保存到文件中
import pickle
data1 = {'a': [1, 2.0, 3, 4+6j],
'b': ('string', u'Unicode string'),
'c': None}
output = open('data.pkl', 'wb')
pickle.dump(data1, output)
output.close()
反序列化操作:从file中读取一个字符串,并将它重构为原来的python对象。
import pickle
pkl_file = open('data.pkl', 'rb')
data1 = pickle.load(pkl_file)
pkl_file.close()