NLP学习笔记1 text processing
coursera的教程https://class.coursera.org/nlp/lecture
regular expression介绍
1.[Ww]  表示从文本中提取出W和w,[A-Z]提取所有大写字母,[A-Za-z]提取所有大小写字母。
2.[^Ww]取出不是W和w的文本,[^E^]表示非E且非^。
3.mat|ook  取出所有ook和mat的文本。
4.colou?r  取出有或者没有u的,color 或者colour
5.oo*h  取出不包含o或者不限次数o的文本(oh,ooh,oooh)
6.o+h 结果同5
7.baa+   结果为: baa,baaa……
8.beg.n  结果为 : begin ,begun,beg3n,……
9.[tT]he   结果为: the,和The


NLP中,会遇到两种匹配错误
type1(罗马数字),false positives,match things we should not match
type2(罗马数字),false negatives,not match things we should have match
为了减少错误率,采取一下两种antagonistic effort(拮抗措施??)
1.提高匹配精度(1)
2.提高覆盖率或者召回率(2)(coverage or recall)
阅读更多
想对作者说点什么? 我来说一句

Speech and Language Processing 2nd

2017年10月13日 4.38MB 下载

没有更多推荐了,返回首页

不良信息举报

NLP学习笔记1 text processing

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭