python中的open用法详解

本文详细介绍了Python中open函数的使用,包括文件读写模式、文件对象及其方法,并探讨了with...as表达式的智能关闭文件功能。此外,还深入到os.open的底层实现,讨论了文件标识符和相关系统调用,如os.read、os.write等,适合对文件操作有性能要求的场景。
该文章已生成可运行项目,


更多Python标准库内容: 刷完这60个标准库模块:没人比我更懂Python了

open

Python提供了非常方便的文件读写功能,其中open是读写文件的第一步,通过open读写文件的方式和把大象装冰箱是一样的

f = open("test.txt",'w')    #第一步,把冰箱门(文件)打开
f.write("this is content")  #第二步,把大象(文件内容)装进去
f.close()                   #第三步,把冰箱门关上,否则大象可能会跑掉

open的定义方式为

file=open(path,mode='r',buffering=-1,encoding=None)

其中,

  • path为文件路径
  • mode为读取模式,默认为r,即只读模式。
  • buffering为缓冲区,由于内存的读写速度快于外设,所以大部分情况不用设,即不大于0。
  • encoding为编码方式
  • 最后,输出的file是一个文件对象

其中,mode包括以下几种

rr+ww+aa+
brbrb+wbwb+abab+

其中,b表示二进制,r表示读,w表示写,a表示追加。无论什么模式,有+则意味着可读可写。写入一般会覆盖原文件,追加则在原文件尾部开始写。如果文件不存在,w, w+, a, a+, wb会创建新文件。

文件对象

通过open创建的文件对象,除了用于关闭文件的close之外,有两组最常用的函数,即代表读写的readwrite,分别用于读写,其区别如下

readwrite读写整个文件
read(size)可读取size大小的文件
readline每次读一行
由于write直接输入字符串,故不必设置writeline
readlineswritelines前者按行读取文件,并存入一个字符串列表
writelines将一个字符串列表的形式写入文件

例如

>>> f = open('test.txt','w')
>>> f.writelines(['a','b','c\n','d'])
>>> f.close()
>>> f = open('test.txt','r')
>>> f.readlines()
['abc\n', 'd']      #在写lines的时候,并不会自动添加\n
>>> f.close()

根据我电脑的性能,读取500M的txt就要超过1s,读取2G的文件多半要报错。这个时候需要通过seek函数来指定偏移量,然后在偏移处的位置对文件进行读写操作。其输入为f.seek(offset,whence=0)

其中

  • offset为偏移量
  • whence为偏移方式,为0时表示绝对定位;为1时表示相对定位;为2表示从末尾定位。

seek的视角来看,open文件时,如果用了w,则代表seek(0),如果用了a,则代表seek(0,2)

通过tell可以返回当前偏移量,相当于seek的对偶函数。

在对文件操作结束后,需要使用f.close()将缓存中的字符串写入硬盘;如果害怕发生意外,可以用f.flush()强制写入。

此外,文件对象的成员变量如下

namemodeencodingerrorclosedbuffer
文件名读写模式编码方式错误模式是否已经关闭缓冲区

此外还有三个判定函数

readable()writable()seekable
是否可读是否可写可否指定偏移量

with … as表达式

在写入文件时,如果忘了close或者flush,那么可能还有一些数据留在内存中,从而导致我们得到的文件是残缺的。

with as表达式可以通过调用对象中的__enter__方法和__exit__方法,来更加智能地调用close,从而免除了忘写close的麻烦。其调用方法为

with open('text.txt','w') as f:
    f.write("12345")

查看file.py,其__exit__函数正是close:

def __enter__(self):
    return self

def __exit__(self, type, value, traceback):
    self.close()

底层实现:os.open

open是非常方便的函数,但开销也很大,毕竟直接返回了一个文件对象。相比之下,其底层实现os.open返回的是一个整型的文件ID,对于在速度上有要求的频繁的文件读写操作,可以考虑使用。

os中,打开一个文件的方法为

fd = os.open(path, flags, mode=511, dir_fd=None)

其中,

  • path为文件路径
  • flags为打开标志,例如os.O_RDONLY代表只读、os.O_WRONLY代表只写
  • mode表示文件权限,例如777代表任何人可读可写可执行;511代表文件创建者可读可执行,其他人只可执行,这属于Linux的内容,日后可专门在Linux里说。
  • dir_fd表示相对路径的规则,为自定义函数,比较少用。
  • 最后,输出的fd是某个文件的标识。

其中,mode的取值可见于deepinwindows的手册,常用的标志如下,多个标志可通过|叠加,这一股浓郁的C风确认来自操作系统无疑了。

os.openopenos.openopen
os.O_RDONLY‘r’os.O_WRONLY‘w’
os.O_RDWR‘r+’os.O_APPEND‘a’
os.O_CREAT创建并打开

其中相关的函数还有:

os.fdopen(fd, mode, bufsize)通过fd创建一个文件对象,并返回这个文件对象
os.read(fd, n)从fd 中读取最多 n 个字节并返回,如果fd对应文件已达到结尾, 则返回空串。
os.write(fd, str)str写入fd,返回实际写入的字符串长度
os.fsync(fd)强制将fd所对应的文件写入硬盘
os.close(fd)关闭fd
os.dup(fd)复制fd
os.dup2(fd, fd2)将fd1所对应的文件复制给fd2
os.fstat(fd)返回fd的状态
os.ftruncate(fd, length)裁剪fd, length不大于文件尺寸
os.isatty(fd)如果fd已经打开,同时与tty(-like)设备相连,则返回True, 否则False。
os.lseek(fd, pos, how)设置fd当前位置为pos, how为修改方式,等同于前文中的whence
本文章已经生成可运行项目
使用Python提取文档中出现频次最多的关键字可以通过以下步骤实现: 1. 首先,将文档读取为字符串。可以使用Python的文件读取功能来读取文档内容,并将其保存为一个字符串。 2. 对文档进行预处理。可以使用正则表达式或字符串操作来去除文档中的标点符号、特殊字符和空格,并将文档内容转换为小写,以便后续处理。 3. 将文档内容分解为单词。使用Python的split()函数将文档字符串分解为单词,并将这些单词保存在一个列表中。 4. 统计每个关键字的频次。创建一个空的字典来保存关键字及其出现的频次。遍历单词列表,对于每个单词,判断其是否已存在于字典中,如果存在,频次加1;如果不存在,将其作为新的关键字添加到字典中,并设置其初始频次为1。 5. 找出出现频次最多的关键字。使用字典的values()函数获取关键字的频次列表,然后使用max()函数找出频次最大值。再次遍历字典,找到频次等于最大值的关键字,并将其保存到一个新的列表中。 6. 输出结果。将频次最高的关键字列表输出为结果。 下面是一个简单的Python代码示例: ```python import re from collections import defaultdict # 读取文档 with open('document.txt', 'r') as file: document = file.read() # 预处理文档 document = re.sub(r'\W+', ' ', document) # 去除标点符号和特殊字符 document = document.lower() # 转换为小写 # 分解文档为单词 words = document.split() # 统计关键字的频次 keyword_freq = defaultdict(int) for word in words: keyword_freq[word] += 1 # 找出频次最高的关键字 max_freq = max(keyword_freq.values()) most_common_keywords = [keyword for keyword, freq in keyword_freq.items() if freq == max_freq] # 输出结果 print('出现频次最多的关键字:', most_common_keywords) ``` 通过上述步骤,我们可以得到文档中出现频次最多的关键字。注意,上述代码仅为示例,实际应用中可能需要根据具体需求进行更多的文本处理和预处理操作。
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微小冷

请我喝杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值