中文分词（1）--正则表达式

为自然语言奋斗

于 2023-12-12 16:46:01 发布

阅读量991

点赞数 24

分类专栏：自然语言处理文章标签：中文分词正则表达式 mysql

本文链接：https://blog.csdn.net/qq_52019496/article/details/134952543

版权

自然语言处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1 正则表达式概念

正则表达式（Regular Expression）是一种用于匹配和操作文本字符串的强大工具。它是由一系列字符和特殊字符组成的模式，用于描述和匹配字符串的规则。以下是一些常用的正则表达式元字符和符号：

字符匹配
- 普通字符：匹配与其自身相等的字符。
- 元字符：具有特殊含义的字符，如.、*、+、?等。
字符类
- 方括号[]：匹配方括号内的任意一个字符。
- 范围-：定义字符的范围，如[a-z]匹配任意小写字母。
重复匹配：
- *：匹配前面的元素零次或多次。
- +：匹配前面的元素一次或多次。
- ?：匹配前面的元素零次或一次。
- {n}：匹配前面的元素恰好出现 n 次。
- {n,}：匹配前面的元素至少出现 n 次。
- {n,m}：匹配前面的元素出现 n 到 m 次。
特殊字符：
- .：匹配任意字符（除了换行符）。
- \：转义字符，用于匹配特殊字符本身。
- ^：匹配字符串的开头。
- $：匹配字符串的结尾。
分组和捕获：
- ()：将多个元素组合成一个单元，可以对其进行分组和捕获。

正则表达式的语法和功能非常丰富，可以用于字符串匹配、替换、提取等操作。在编程语言中，通常会提供正则表达式的库或模块，用于处理正则表达式的操作。

2 正则表达式在python中实现

在Python中，可以使用内置的re模块来实现正则表达式的功能。re模块提供了一系列函数，用于处理正则表达式的匹配、搜索、替换等操作。以下是一些常用的re模块函数和功能：

re.match(pattern, string)：从字符串的开头开始匹配模式，如果匹配成功则返回一个匹配对象，否则返回None。
re.search(pattern, string)：在字符串中搜索匹配模式的第一个位置，如果匹配成功则返回一个匹配对象，否则返回None。
re.findall(pattern, string)：返回字符串中所有与模式匹配的非重叠子字符串的列表。
re.finditer(pattern, string)：返回一个迭代器，包含字符串中所有与模式匹配的非重叠子字符串的匹配对象。
re.sub(pattern, repl, string)：使用替换字符串或函数对匹配模式的子字符串进行替换。
re.split(pattern, string)：根据模式将字符串分割成子字符串列表。
re.compile(pattern)：将正则表达式模式编译成一个正则表达式对象，可以重复使用。
正则表达式对象的方法：
- search(string[, pos[, endpos]])：在指定位置搜索匹配模式。
- match(string[, pos[, endpos]])：从字符串的开头开始匹配模式。
- findall(string[, pos[, endpos]])：返回所有与模式匹配的非重叠子字符串的列表。
- finditer(string[, pos[, endpos]])：返回一个迭代器，包含所有与模式匹配的非重叠子字符串的匹配对象。

这些函数和方法提供了基本的正则表达式功能，可以用于字符串的匹配、搜索、替换等操作。在使用正则表达式时，需要注意模式的语法和特殊字符的转义。可以通过re模块的函数和方法来实现对字符串的正则操作。

3 简单实现

3.1 数据读取

从txt文件中获取出全部的文字信息，并按行存储在all_read列表当中

#数据读取
with open("ganai/2697512_1.txt","r",encoding="utf-8") as f:
   all_read = f.read().split()

3.2 分词处理

导入re模块
根据要读取的文本的结构信息，设置对应的正则表达式
先使用re.search获取对应的match对象，之后使用re.findall输出所匹配的字符列表
根据自己的需要输出不同格式的内容

# -*- coding: utf-8 -*-
import re
pattern = r"现病史：(.*?)。"
for text in all_read:
    match = re.search(pattern,text)
    # 使用正则表达式提取症状信息
    if match:
        start = match.start(1)
        end = match.end(1)
        chief_complaint = match.group(1)
        #[\u4e00-\u9fa5]匹配中文字符范围， \d匹配数字范围，+表示多于一个字符
        symptoms = re.findall(r"[\u4e00-\u9fa5\d]+", chief_complaint)
        print("症状：", symptoms, start, end)

        # 输出每个分词结果的词语开始和结束在文字中的位置
        for symptom in symptoms:
            match_iter = re.finditer(symptom, chief_complaint)
            for match in match_iter:
                word_start = match.start()
                word_end = match.end()
                print(f"词语：{symptom}，开始位置：{start + word_start}，结束位置：{start + word_end - 1}")

输出结果如下

为自然语言奋斗

关注

24
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
中文分词（1）--正则表达式

正则表达式是由一系列字符和特殊字符组成的模式，用于描述和匹配字符串的规则。这些函数和方法提供了基本的正则表达式功能，可以用于字符串的匹配、搜索、替换等操作。在编程语言中，通常会提供正则表达式的库或模块，用于处理正则表达式的操作。：在字符串中搜索匹配模式的第一个位置，如果匹配成功则返回一个匹配对象，否则返回。：返回一个迭代器，包含字符串中所有与模式匹配的非重叠子字符串的匹配对象。：从字符串的开头开始匹配模式，如果匹配成功则返回一个匹配对象，否则返回。：返回字符串中所有与模式匹配的非重叠子字符串的列表。
复制链接

扫一扫

专栏目录