NLP 通常所需要处理的语料包含了非结构化文本、半结构化文本以及结构化文本 。 正则表达式的作用之一是将这些文档内容从非结构化转为结构化以便后续的文本挖掘 。
正则表达式是一种定义了搜索模式的特征序列,主要是用于字符串的模式匹配,或是字符的匹配。另一个作用就是去除"噪声" 。 即去除文本中与最终输出无关的片段。
当你要 一个/多个/任意个 数字/字母/非数字/非字母/某几个字符/任意字符,想要 贪婪/非贪婪 匹配,想要捕获匹配出来的 第一个/所有 内容的时候,记得这里有个小手册供你参考。
正则表达式在线验证工具之一是:http://regexr.com/