文本处理基础
1.正则表达式(Regular Expressions)
正则表达式是重要的文本预处理工具。
以下截取了部分正则写法:
2.分词(Word tokenization)
我们在进行每一次文本处理时都要对文本进行统一标准化(text normalization)处理。
文本规模 How many words?
我们引入变量Type和Token
分别代表词典中的元素(an element of the vocabulary)和这个元素在文中的出现(an instance of that type in running text)。如果定义 N = number of tokens 和 V = vocabulary = set of types,|V| is the size of the vocabulary,那么根据Church and Gale (1990)的研究工作可知: