中文分词(1)--正则表达式

1 正则表达式概念

正则表达式(Regular Expression)是一种用于匹配和操作文本字符串的强大工具。它是由一系列字符和特殊字符组成的模式,用于描述和匹配字符串的规则。以下是一些常用的正则表达式元字符和符号:

  • 字符匹配
    • 普通字符:匹配与其自身相等的字符。
    • 元字符:具有特殊含义的字符,如.、*、+、?等。
  • 字符类
    • 方括号[]:匹配方括号内的任意一个字符。
    • 范围-:定义字符的范围,如[a-z]匹配任意小写字母。
  • 重复匹配:
    • *:匹配前面的元素零次或多次。
    • +:匹配前面的元素一次或多次。
    • ?:匹配前面的元素零次或一次。
    • {n}:匹配前面的元素恰好出现 n 次。
    • {n,}:匹配前面的元素至少出现 n 次。
    • {n,m}:匹配前面的元素出现 n 到 m 次。
  • 特殊字符:
    • .:匹配任意字符(除了换行符)。
    • \:转义字符,用于匹配特殊字符本身。
    • ^:匹配字符串的开头。
    • $:匹配字符串的结尾。
  • 分组和捕获:
    • ():将多个元素组合成一个单元,可以对其进行分组和捕获。

正则表达式的语法和功能非常丰富,可以用于字符串匹配、替换、提取等操作。在编程语言中,通常会提供正则表达式的库或模块,用于处理正则表达式的操作。

2 正则表达式在python中实现

在Python中,可以使用内置的re模块来实现正则表达式的功能。re模块提供了一系列函数,用于处理正则表达式的匹配、搜索、替换等操作。以下是一些常用的re模块函数和功能:

  1. re.match(pattern, string):从字符串的开头开始匹配模式,如果匹配成功则返回一个匹配对象,否则返回None

  2. re.search(pattern, string):在字符串中搜索匹配模式的第一个位置,如果匹配成功则返回一个匹配对象,否则返回None

  3. re.findall(pattern, string):返回字符串中所有与模式匹配的非重叠子字符串的列表。

  4. re.finditer(pattern, string):返回一个迭代器,包含字符串中所有与模式匹配的非重叠子字符串的匹配对象。

  5. re.sub(pattern, repl, string):使用替换字符串或函数对匹配模式的子字符串进行替换。

  6. re.split(pattern, string):根据模式将字符串分割成子字符串列表。

  7. re.compile(pattern):将正则表达式模式编译成一个正则表达式对象,可以重复使用。

  8. 正则表达式对象的方法:

    • search(string[, pos[, endpos]]):在指定位置搜索匹配模式。
    • match(string[, pos[, endpos]]):从字符串的开头开始匹配模式。
    • findall(string[, pos[, endpos]]):返回所有与模式匹配的非重叠子字符串的列表。
    • finditer(string[, pos[, endpos]]):返回一个迭代器,包含所有与模式匹配的非重叠子字符串的匹配对象。

这些函数和方法提供了基本的正则表达式功能,可以用于字符串的匹配、搜索、替换等操作。在使用正则表达式时,需要注意模式的语法和特殊字符的转义。可以通过re模块的函数和方法来实现对字符串的正则操作。

3 简单实现

3.1 数据读取

从txt文件中获取出全部的文字信息,并按行存储在all_read列表当中

#数据读取
with open("ganai/2697512_1.txt","r",encoding="utf-8") as f:
   all_read = f.read().split()

3.2 分词处理

  1. 导入re模块
  2. 根据要读取的文本的结构信息,设置对应的正则表达式
  3. 先使用re.search获取对应的match对象,之后使用re.findall输出所匹配的字符列表
  4. 根据自己的需要输出不同格式的内容
# -*- coding: utf-8 -*-
import re
pattern = r"现病史:(.*?)。"
for text in all_read:
    match = re.search(pattern,text)
    # 使用正则表达式提取症状信息
    if match:
        start = match.start(1)
        end = match.end(1)
        chief_complaint = match.group(1)
        #[\u4e00-\u9fa5]匹配中文字符范围, \d匹配数字范围,+表示多于一个字符
        symptoms = re.findall(r"[\u4e00-\u9fa5\d]+", chief_complaint)
        print("症状:", symptoms, start, end)

        # 输出每个分词结果的词语开始和结束在文字中的位置
        for symptom in symptoms:
            match_iter = re.finditer(symptom, chief_complaint)
            for match in match_iter:
                word_start = match.start()
                word_end = match.end()
                print(f"词语:{symptom},开始位置:{start + word_start},结束位置:{start + word_end - 1}")
  1. 输出结果如下
    在这里插入图片描述
  • 24
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值