coursera的教程https://class.coursera.org/nlp/lecture
regular expression介绍
1.[Ww] 表示从文本中提取出W和w,[A-Z]提取所有大写字母,[A-Za-z]提取所有大小写字母。
2.[^Ww]取出不是W和w的文本,[^E^]表示非E且非^。
3.mat|ook 取出所有ook和mat的文本。
4.colou?r 取出有或者没有u的,color 或者colour
5.oo*h 取出不包含o或者不限次数o的文本(oh,ooh,oooh)
6.o+h 结果同5
7.baa+ 结果为: baa,baaa……
8.beg.n 结果为 : begin ,begun,beg3n,……
9.[tT]he 结果为: the,和The
NLP中,会遇到两种匹配错误
type1(罗马数字),false positives,match things we should not match
type2(罗马数字),false negatives,not match things we should have match
为了减少错误率,采取一下两种antagonistic effort(拮抗措施??)
1.提高匹配精度(1)
2.提高覆盖率或者召回率(2)(coverage or recall)