python 的文件操作os和正则表达式re

本文介绍了Python中使用os库进行文件操作,包括读文件、按字节和逐行读取、写文件等,以及如何利用re模块进行正则匹配,解决了反斜杠转义的问题,并给出了re模块的常用方法。
摘要由CSDN通过智能技术生成

一:前言

最近在学爬虫,需要用到文件操作来存储数据,和用正则表达式来对数据进行挑选,

因此使用python的os库来进行文件操作和正则表达式库re来进行

二:步骤

2.1 使用os库来进行文件操作

2.1.1 读文件

在 Python 中,读文件主要分为三个步骤:

  • 打开文件
  • 读取内容
  • 关闭文件

一般使用形式如下:

try:
f = open('/path/to/file', 'r') # 打开文件
data = f.read() # 读取文件内容
finally:
if f:
f.close() # 确保文件被关闭

注意到,我们在代码中加了 try...finally,这是因为,如果打开和读取文件时出现错误,文件就没有被关闭。为了确保在任何情况下,文件都能被关闭,我们加了 try...finally

上面的代码中,’r’ 模式表示读模式,open 函数的常用模式主要有:

‘r’ 读模式
‘w’ 写模式
‘a’ 追加模式
‘b’ 二进制模式(可添加到其他模式中使用)
‘+’ 读/写模式(可添加到其他模式中使用)

上面的读文件做法很繁琐,我们可以使用 Python 的 with 语句来帮我们自动调用 close 方法:

with open('/path/to/file', 'r', encoding = 'utf-8') as f:
data = f.read()

可以看到,这种方式很简洁,而且还能在出现异常的情况下自动关闭文件。

通常而言,读取文件有以下几种方式:

  • 一次性读取所有内容,使用 read()readlines()
  • 按字节读取,使用 read(size)
  • 按行读取,使用 readline()
2.1.2 读取所有内容

读取所有内容可以使用 read()readlines()。我们在上面已经介绍过 read() 了,现在,让我们看看 readlines()

readlines() 方法会把文件读入一个字符串列表,在列表中每个字符串就是一行。

假设有一个文件 data.txt,它的文件内容如下(数字之间的间隔符是’\t’):

10  1   9   9
6 3 2 8
20 10
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值