(一)使用正则表达式
正则表达式是一种定义了搜索模式的特征序列,主要用于字符串的模式匹配,或者是字符是匹配,其作用之一是将文档内容从非结构化转化为结构化以便后续的文本挖掘;另一个作用是去噪(在处理大量文本片段的时候,有很多文字信息与最终输出的文本无关,这些无关的片段称为噪声(如语气助词、标点符号等))正则表达式是处理NLP最基本的手段之一。
NLP第一天2
最新推荐文章于 2024-08-09 19:49:38 发布
(一)使用正则表达式
正则表达式是一种定义了搜索模式的特征序列,主要用于字符串的模式匹配,或者是字符是匹配,其作用之一是将文档内容从非结构化转化为结构化以便后续的文本挖掘;另一个作用是去噪(在处理大量文本片段的时候,有很多文字信息与最终输出的文本无关,这些无关的片段称为噪声(如语气助词、标点符号等))正则表达式是处理NLP最基本的手段之一。