PYTHON文件读写以及判断文件大小

文件读写
阅读: 22384     评论:4
到目前为止,我们做的一切操作,都是在内存里进行的。如果一旦断电或发生意外,那么你的工作成果将瞬间消失。你有没有一种人生缺少了点什么的感觉?是的,我们还缺少将数据在本地文件系统进行持久化的能力,白话讲就是文件的读写能力。很久以前,我刚开始学习编程的时候,很长一段时间都觉得写的代码毫无用处,直到我学会了对本地文件进行读写之后,才感觉自己真的能写点有用的东西了。本节属于能够大幅度提升学习激情的章节,至少我是这么认为的^_^。

Python内置了一个open()方法,用于对文件进行读写操作。使用open()方法操作文件就像把大象塞进冰箱一样,可以分三步走,一是打开文件,二是操作文件,三是关闭文件。

open()方法的返回值是一个file对象,可以将它赋值给一个变量(文件句柄)。其基本语法格式为:

f = open(filename, mode)

PS:Python中,所有具有read和write方法的对象,都可以归类为file类型。而所有的file类型对象都可以使用open方法打开,close方法结束和被with上下文管理器管理。这是Python的设计哲学之一。

filename:一个包含了你要访问的文件名称的字符串值,通常是一个文件路径。

mode:打开文件的模式,有很多种,默认是只读方式r。

一个简单的例子:

# 打开一个文件
f = open("/tmp/foo.txt", "w")
f.write("Python 是一种非常好的语言。\n我喜欢Python!!\n")
# 关闭打开的文件
f.close()
打开模式:
模式	操作	说明
r	只读	默认模式,如果文件不存在就报错,存在就正常读取。
w	只写	如果文件不存在,新建文件然后写入;如果存在,先清空文件内容,再写入。
a	追加	如果文件不存在,新建文件,然后写入;如果存在,在文件的最后追加写入。
x	新建	如果文件存在则报错,如果不存在就新建文件,然后写入内容,比w模式更安全。
b	二进制模式	比如rb、wb、ab,以bytes类型操作数据
+	读写模式	比如r+、w+、a+
一、 b模式:
二进制模式,通常用来读取图片、视频等二进制文件。注意,它在读写的时候是以bytes类型读写的,因此获得的是一个bytes对象而不是字符串。在这个读写过程中,需要自己指定编码格式。在使用带b的模式时一定要注意传入的数据类型,确保为bytes类型。

s = 'this is a test'
b = bytes(s,encoding='utf-8')

f = open('test.txt','w')
f.write(s)

##这样没问题,正常写入了文件。

##-------------------------------------------------
s = 'this is a test'
b = bytes(s,encoding='utf-8')

f = open('test.txt','wb')    ##注意多了个b
f.write(s)

##报错
TypeError: a bytes-like object is required, not 'str'
##意思是它需要一个bytes类型数据,你却给了个字符串

##---------------------------------------------------
s = 'this is a test'
b = bytes(s,encoding='utf-8')

f = open('test.txt','wb')    ##注意多了个b
f.write(b)                        ##将变量b传给它,b是个bytes类型
二、 + 模式:
对于w+模式,在读写之前都会清空文件的内容,建议不要使用!

对于a+模式,永远只能在文件的末尾写入,有局限性,建议不要使用!

对于r+模式,也就是读写模式,配合seek()tell()方法,可以实现更多操作。

三、 编码问题
要读取非UTF-8编码的文件,需要给open()函数传入encoding参数,例如,读取GBK编码的文件:

>>> f = open('gbk.txt', 'r', encoding='gbk')
>>> f.read()
'GBK'
遇到有些编码不规范的文件,可能会抛出UnicodeDecodeError异常,这表示在文件中可能夹杂了一些非法编码的字符。遇到这种情况,可以提供errors参数,表示如果遇到编码错误后如何处理。

>>> f = open('gbk.txt', 'r', encoding='gbk', errors='ignore')
四、 文件对象操作
每当我们用open方法打开一个文件时,将返回一个文件对象。这个对象内置了很多操作方法。下面假设,已经打开了一个f文件对象。

1. f.read(size)
读取一定大小的数据, 然后作为字符串或字节对象返回。size是一个可选的数字类型的参数,用于指定读取的数据量。当size被忽略了或者为负值,那么该文件的所有内容都将被读取并且返回。

f = open("1.txt", "r")

str = f.read()
print(str)

f.close()
如果文件体积较大,请不要使用read()方法一次性读入内存,而是read(512)这种一点一点的读。

2. f.readline()
从文件中读取一行n内容。换行符为'\n'。如果返回一个空字符串,说明已经已经读取到最后一行。这种方法,通常是读一行,处理一行,并且不能回头,只能前进,读过的行不能再读了。

f = open("1.txt", "r")
str = f.readline()
print(str)
f.close()
3. f.readlines()
将文件中所有的行,一行一行全部读入一个列表内,按顺序一个一个作为列表的元素,并返回这个列表。readlines方法会一次性将文件全部读入内存,所以也存在一定的风险。但是它有个好处,每行都保存在列表里,可以随意存取。

f = open("1.txt", "r")
a = f.readlines()
print(a)
f.close()
4. 遍历文件
实际上,更多的时候,我们将文件对象作为一个迭代器来使用。

# 打开一个文件
f = open("1.txt", "r")

for line in f:
    print(line, end='')

# 关闭打开的文件
f.close()
这个方法很简单, 不需要将文件一次性读出,但是同样没有提供一个很好的控制,与readline方法一样只能前进,不能回退。

几种不同的读取和遍历文件的方法比较:如果文件很小,read()一次性读取最方便;如果不能确定文件大小,反复调用read(size)比较保险;如果是配置文件,调用readlines()最方便。普通情况,使用for循环更好,速度更快。

5. f.write()
将字符串或bytes类型的数据写入文件内。write()动作可以多次重复进行,其实都是在内存中的操作,并不会立刻写回硬盘,直到执行close()方法后,才会将所有的写入操作反映到硬盘上。在这过程中,如果想将内存中的修改,立刻保存到硬盘上,可以使用f.flush()方法,但这可能造成数据的不一致。

# 打开一个文件
f = open("/tmp/foo.txt", "w")

f.write("Python 是一种非常好的语言。\n我喜欢Python!!\n")

# 关闭打开的文件
f.close()
6. f.tell()
返回文件读写指针当前所处的位置,它是从文件开头开始算起的字节数。一定要注意了,是字节数,不是字符数。

7. f.seek()
如果要改变位置指针的位置, 可以使用f.seek(offset, from_what)方法。seek()经常和tell()方法配合使用。

from_what的值,如果是0表示从文件开头计算,如果是1表示从文件读写指针的当前位置开始计算,2表示从文件的结尾开始计算,默认为0,例如:

offset:表示偏移量。

seek(x,0) : 从起始位置即文件首行首字符开始移动 x 个字符
seek(x,1) : 表示从当前位置往后移动x个字符
seek(-x,2):表示从文件的结尾往前移动x个字符
看一个例子:

>>> f = open("d:\\1.txt", "rb+")
>>> f.write(b"1232312adsfalafds")
17
>>> f.tell()
17
>>> f.seek(5)
5
>>> f.read(1)
b'1'
>>> f.seek(-3, 2)
14
>>> f.read(1)
b'f'
8. f.close()
关闭文件对象。当处理完一个文件后,调用f.close()来关闭文件并释放系统的资源。文件关闭后,如果尝试再次调用该文件对象,则会抛出异常。忘记调用close()的后果是数据可能只写了一部分到磁盘,剩下的丢失了,或者更糟糕的结果。也就是说大象塞进冰箱后,一定不要忘记关上冰箱的门。

五、 with关键字
with关键字用于Python的上下文管理器机制。为了防止诸如open这一类文件打开方法在操作过程出现异常或错误,或者最后忘了执行close方法,文件非正常关闭等可能导致文件泄露、破坏的问题。Python提供了with这个上下文管理器机制,保证文件会被正常关闭。在它的管理下,不需要再写close语句。注意缩进。

with open('test.txt', 'w') as f:
    f.write('Hello, world!')
with支持同时打开多个文件:

with open('log1') as obj1, open('log2','w') as obj2:
    s=obj1.read()
    obj2.write(s)



我在Windows中编写Python脚本。 我想根据文件大小做一些事情。 例如,如果大小大于0,我将向某人发送电子邮件,否则继续其他操作。

如何检查文件大小?

#1楼
其他答案适用于实际文件,但是如果您需要适用于“类文件的对象”的文件,请尝试以下操作:

# f is a file-like object. 
f.seek(0, os.SEEK_END)
size = f.tell()
在我有限的测试中,它适用于真实文件和StringIO。 (Python 2.7.3。)当然,“类文件对象” API并不是严格的接口,但是API文档建议类文件对象应支持seek()tell() 。

编辑

此文件与os.stat()之间的另一个区别是,即使您没有读取文件的权限,也可以对文件进行stat() 。 显然,除非您具有阅读许可,否则搜索/讲述方法将无法工作。

编辑2

在乔纳森的建议下,这是一个偏执的版本。 (以上版本将文件指针留在文件的末尾,因此,如果您尝试从文件中读取文件,则将返回零字节!)

# f is a file-like object. 
old_file_position = f.tell()
f.seek(0, os.SEEK_END)
size = f.tell()
f.seek(old_file_position, os.SEEK_SET)
#2楼
使用os.path.getsize :

>>> import os
>>> b = os.path.getsize("/path/isa_005.mp3")
>>> b
2071611L
输出以字节为单位。

#3楼
使用os.stat ,并使用结果对象的st_size成员:

>>> import os
>>> statinfo = os.stat('somefile.txt')
>>> statinfo
(33188, 422511L, 769L, 1, 1032, 100, 926L, 1105022698,1105022732, 1105022732)
>>> statinfo.st_size
926L
输出以字节为单位。

#4楼
import os
 
 
def convert_bytes(num):
    """
    this function will convert bytes to MB.... GB... etc
    """
    for x in ['bytes', 'KB', 'MB', 'GB', 'TB']:
        if num < 1024.0:
            return "%3.1f %s" % (num, x)
        num /= 1024.0
 
 
def file_size(file_path):
    """
    this function will return the file size
    """
    if os.path.isfile(file_path):
        file_info = os.stat(file_path)
        return convert_bytes(file_info.st_size)
 
 
# Lets check the file size of MS Paint exe 
# or you can use any file path
file_path = r"C:\Windows\System32\mspaint.exe"
print file_size(file_path)
结果:

6.1 MB
#5楼
使用pathlib ( 在Python 3.4中添加或在PyPI上可用的pathlib ):

from pathlib import Path
file = Path() / 'doc.txt'  # or Path('./doc.txt')
size = file.stat().st_size
这实际上只是os.stat周围的接口,但是使用pathlib提供了一种访问其他文件相关操作的简便方法。

#6楼
严格遵循这个问题,python代码(+伪代码)将是:

import os
file_path = r"<path to your file>"
if os.stat(file_path).st_size > 0:
    <send an email to somebody>
else:
    <continue to other things>
#7楼
如果我想从bytes转换为任何其他单位,我将使用一个bitshift技巧。 如果您将右移10 ,则基本上将其移位一个顺序(多个)。

示例: 5GB are 5368709120 bytes

print (5368709120 >> 10)  # 5242880 kilo Bytes (kB)
print (5368709120 >> 20 ) # 5120 Mega Bytes(MB)
print (5368709120 >> 30 ) # 5 Giga Bytes(GB)
#8楼
#Get file size , print it , process it...
#Os.stat will provide the file size in (.st_size) property. 
#The file size will be shown in bytes.
 
import os
 
fsize=os.stat('filepath')
print('size:' + fsize.st_size.__str__())
#check if the file size is less than 10 MB
 
if fsize.st_size < 10000000:
    process it ....

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值