NLP 中文信息抽取:Bert

本文介绍了如何在自然语言处理(NLP)任务中使用Python的re模块进行信息抽取。讲解了正则表达式的基本语法,强调了Unicode字符串和ASCII字符串的区别,并展示了re.compile()、match()和findall()等常用函数的用法,通过实例展示了如何从文本中抽取特定模式的实体。
摘要由CSDN通过智能技术生成

1. 采用模式匹配法做实体抽取

  • 采用传统方法做信息抽取时,常用 Python 自带函数库 re。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法及一个独立的处理引擎,效率上可能不如 str 自带的方法,但功能强大,得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言支持的语法数量不同,如果已经在其他语言里使用过正则表达式,只需要简单看一看就可以上手了

1.1 re 基本语法

  • 要搜索的模式和字符串都可以是 Unicode 字符串(str)以及 8 位 ASCII 字符串(字节)。但是,Unicode 字符串和 ASCII 字符串不能混合使用,也就是说无法将 Unicode 字符串与字节模式匹配,反之亦然;同样,当要求替换时,替换字符串必须与模式和搜索字符串的类型相同。
  • 字母和数字表示它们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。多数字母和数字前加一个反斜杠时会有不同的含义。
  • 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。
    反斜杠本身需要反斜杠转义。由于正则表达式通常都包含反斜杠,所以最好使用原始字符串来表示它们。模式元素(如 r’\t’,等价于
    r’\t’)匹配相应的特殊字符。
  • 正则表达式可以连接起来形成新的正则表达式。如果 A 和 B 都是正则表达式,那么 AB 也是一个正则表达式。通常如果一个字符串 p 匹配
    A 而另外一个字符串 q 匹配 B,那么,字符串 pq 匹配字符 AB。除非 A 或 B 包含低优先级操作,A 和 B
    之间的边界条件&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值