1 正则表达式概念
正则表达式(Regular Expression)是一种用于匹配和操作文本字符串的强大工具。它是由一系列字符和特殊字符组成的模式,用于描述和匹配字符串的规则。以下是一些常用的正则表达式元字符和符号:
- 字符匹配
- 普通字符:匹配与其自身相等的字符。
- 元字符:具有特殊含义的字符,如.、*、+、?等。
- 字符类
- 方括号[]:匹配方括号内的任意一个字符。
- 范围-:定义字符的范围,如[a-z]匹配任意小写字母。
- 重复匹配:
- *:匹配前面的元素零次或多次。
- +:匹配前面的元素一次或多次。
- ?:匹配前面的元素零次或一次。
- {n}:匹配前面的元素恰好出现 n 次。
- {n,}:匹配前面的元素至少出现 n 次。
- {n,m}:匹配前面的元素出现 n 到 m 次。
- 特殊字符:
- .:匹配任意字符(除了换行符)。
- \:转义字符,用于匹配特殊字符本身。
- ^:匹配字符串的开头。
- $:匹配字符串的结尾。
- 分组和捕获:
- ():将多个元素组合成一个单元,可以对其进行分组和捕获。
正则表达式的语法和功能非常丰富,可以用于字符串匹配、替换、提取等操作。在编程语言中,通常会提供正则表达式的库或模块,用于处理正则表达式的操作。
2 正则表达式在python中实现
在Python中,可以使用内置的re
模块来实现正则表达式的功能。re
模块提供了一系列函数,用于处理正则表达式的匹配、搜索、替换等操作。以下是一些常用的re
模块函数和功能:
-
re.match(pattern, string)
:从字符串的开头开始匹配模式,如果匹配成功则返回一个匹配对象,否则返回None
。 -
re.search(pattern, string)
:在字符串中搜索匹配模式的第一个位置,如果匹配成功则返回一个匹配对象,否则返回None
。 -
re.findall(pattern, string)
:返回字符串中所有与模式匹配的非重叠子字符串的列表。 -
re.finditer(pattern, string)
:返回一个迭代器,包含字符串中所有与模式匹配的非重叠子字符串的匹配对象。 -
re.sub(pattern, repl, string)
:使用替换字符串或函数对匹配模式的子字符串进行替换。 -
re.split(pattern, string)
:根据模式将字符串分割成子字符串列表。 -
re.compile(pattern)
:将正则表达式模式编译成一个正则表达式对象,可以重复使用。 -
正则表达式对象的方法:
search(string[, pos[, endpos]])
:在指定位置搜索匹配模式。match(string[, pos[, endpos]])
:从字符串的开头开始匹配模式。findall(string[, pos[, endpos]])
:返回所有与模式匹配的非重叠子字符串的列表。finditer(string[, pos[, endpos]])
:返回一个迭代器,包含所有与模式匹配的非重叠子字符串的匹配对象。
这些函数和方法提供了基本的正则表达式功能,可以用于字符串的匹配、搜索、替换等操作。在使用正则表达式时,需要注意模式的语法和特殊字符的转义。可以通过re
模块的函数和方法来实现对字符串的正则操作。
3 简单实现
3.1 数据读取
从txt文件中获取出全部的文字信息,并按行存储在all_read列表当中
#数据读取
with open("ganai/2697512_1.txt","r",encoding="utf-8") as f:
all_read = f.read().split()
3.2 分词处理
- 导入
re
模块 - 根据要读取的文本的结构信息,设置对应的正则表达式
- 先使用
re.search
获取对应的match
对象,之后使用re.findall
输出所匹配的字符列表 - 根据自己的需要输出不同格式的内容
# -*- coding: utf-8 -*-
import re
pattern = r"现病史:(.*?)。"
for text in all_read:
match = re.search(pattern,text)
# 使用正则表达式提取症状信息
if match:
start = match.start(1)
end = match.end(1)
chief_complaint = match.group(1)
#[\u4e00-\u9fa5]匹配中文字符范围, \d匹配数字范围,+表示多于一个字符
symptoms = re.findall(r"[\u4e00-\u9fa5\d]+", chief_complaint)
print("症状:", symptoms, start, end)
# 输出每个分词结果的词语开始和结束在文字中的位置
for symptom in symptoms:
match_iter = re.finditer(symptom, chief_complaint)
for match in match_iter:
word_start = match.start()
word_end = match.end()
print(f"词语:{symptom},开始位置:{start + word_start},结束位置:{start + word_end - 1}")
- 输出结果如下