1. 采用模式匹配法做实体抽取
- 采用传统方法做信息抽取时,常用 Python 自带函数库 re。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法及一个独立的处理引擎,效率上可能不如 str 自带的方法,但功能强大,得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言支持的语法数量不同,如果已经在其他语言里使用过正则表达式,只需要简单看一看就可以上手了
1.1 re 基本语法
- 要搜索的模式和字符串都可以是 Unicode 字符串(str)以及 8 位 ASCII 字符串(字节)。但是,Unicode 字符串和 ASCII 字符串不能混合使用,也就是说无法将 Unicode 字符串与字节模式匹配,反之亦然;同样,当要求替换时,替换字符串必须与模式和搜索字符串的类型相同。
- 字母和数字表示它们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。多数字母和数字前加一个反斜杠时会有不同的含义。
- 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。
反斜杠本身需要反斜杠转义。由于正则表达式通常都包含反斜杠,所以最好使用原始字符串来表示它们。模式元素(如 r’\t’,等价于
r’\t’)匹配相应的特殊字符。 - 正则表达式可以连接起来形成新的正则表达式。如果 A 和 B 都是正则表达式,那么 AB 也是一个正则表达式。通常如果一个字符串 p 匹配
A 而另外一个字符串 q 匹配 B,那么,字符串 pq 匹配字符 AB。除非 A 或 B 包含低优先级操作,A 和 B
之间的边界条件&#x