NLP 中文信息抽取：Bert

最新推荐文章于 2024-06-29 10:15:44 发布

qq_37175277

最新推荐文章于 2024-06-29 10:15:44 发布

阅读量655

点赞数

分类专栏： Python 文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_37175277/article/details/111501920

版权

本文介绍了如何在自然语言处理（NLP）任务中使用Python的re模块进行信息抽取。讲解了正则表达式的基本语法，强调了Unicode字符串和ASCII字符串的区别，并展示了re.compile()、match()和findall()等常用函数的用法，通过实例展示了如何从文本中抽取特定模式的实体。

摘要由CSDN通过智能技术生成

1. 采用模式匹配法做实体抽取

采用传统方法做信息抽取时，常用 Python 自带函数库 re。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法及一个独立的处理引擎，效率上可能不如 str 自带的方法，但功能强大，得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言支持的语法数量不同，如果已经在其他语言里使用过正则表达式，只需要简单看一看就可以上手了

1.1 re 基本语法

要搜索的模式和字符串都可以是 Unicode 字符串（str）以及 8 位 ASCII 字符串（字节）。但是，Unicode 字符串和 ASCII 字符串不能混合使用，也就是说无法将 Unicode 字符串与字节模式匹配，反之亦然；同样，当要求替换时，替换字符串必须与模式和搜索字符串的类型相同。
字母和数字表示它们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。多数字母和数字前加一个反斜杠时会有不同的含义。
标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。
反斜杠本身需要反斜杠转义。由于正则表达式通常都包含反斜杠，所以最好使用原始字符串来表示它们。模式元素（如 r’\t’，等价于
r’\t’）匹配相应的特殊字符。
正则表达式可以连接起来形成新的正则表达式。如果 A 和 B 都是正则表达式，那么 AB 也是一个正则表达式。通常如果一个字符串 p 匹配
A 而另外一个字符串 q 匹配 B，那么，字符串 pq 匹配字符 AB。除非 A 或 B 包含低优先级操作，A 和 B
之间的边界条件&#x