在预处理文本的时候,常常出现一些问题,例如首字母大小写,单复数形式等等,解决这个问题的一个方法就是Regular Expressions,即正则表达式。如
Disjunction: 使用[]将可变字符封装起来Negation disjunction: 除了指定的字符之外的字符,使用^表示否定。
Pattern Matches [Ww]ood Wood, wood [A-Z] A,B,C,D,E...Z
[a-z] a,b,c,d,e...z [0-9] 1,2,3,4,5,6,7,8,9
Pattern Matches [^A-Z] 除了A-Z之外的字符 [^A-Za-z] 非字母字符
[^E^] 除了E和^之外的字符 More disjunction: 使用|表示or,可以进行多个词语多种形式的匹配,例如,当woodchuck和groundhog表示同一种动物土拨鼠时: