使用正则表达式提取文件中满足条件的内容

        最近遇到需要处理一个很大文件的情况,需求是提取满足以`(ASCII 十进制 96)开头’结束的字符串,例如xxxxx`abcdedg'。

        尝试在shell脚本中用正则表达式提取。有点曲折,后来通过python实现了,后续的工作就顺利很多。

        python 的re 模块提供了compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() , search() 和findall() 这几个函数使用。菜鸟教程是个好网站!

语法格式为:

re.compile(pattern[, flags])

参数:

  • pattern : 一个字符串形式的正则表达式

  • flags : 可选,表示匹配模式,比如忽略大小写,多行模式等,具体参数为:

    1. re.I 忽略大小写
    2. re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
    3. re.M 多行模式
    4. re.S 即为 . 并且包括换行符在内的任意字符(. 不包括换行符)
    5. re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
    6. re.X 为了增加可读性,忽略空格和 # 后面的注释

        看着还是挺抽象, 比如我这个例子,里面的pattern 不知道给什么,参考了一位大神的帖子,得到答案,真的不胜感激!

        原来可以这样re.compile('<开始字符>.+<结束字符>')就表示匹配以<开始字符> 到<结束字符> 的内容。我这种情况,re.compile('`.+\'') 就是我想要的了。注意此处用到了转义字符\, 因为和包正则表达式的单引号冲突。

        同时还学到,如果要匹配<开始字符>之前以及<结束字符>之后的内容,re.compile('<开始字符>(.+)<结束字符>')

import re, sys

filename = "multi.error"
result = []
i = 0
pattern = re.compile('`.+\'')
with open(filename, "r") as f:
        lines = f.readlines()
        with open ("result.txt", "w") as p:
                for line in lines:
                        result = pattern.findall(line)
                        #因为每行只会有一个满足条件的内容,所以取数据第0个
                        p.write(result[0])

 如果line = xxxxx`abcdedg'

运行结果如下:

`abcdedg'

靡不有初,鲜克有终。好好学习,天天向上!

参考内容:

1. python利用正则表达式提取文本中特定内容 - ZhangHT97 - 博客园

2. Python 正则表达式 | 菜鸟教程

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值