关闭

NLP学习笔记1 text processing

69人阅读 评论(0) 收藏 举报
coursera的教程https://class.coursera.org/nlp/lecture
regular expression介绍
1.[Ww]  表示从文本中提取出W和w,[A-Z]提取所有大写字母,[A-Za-z]提取所有大小写字母。
2.[^Ww]取出不是W和w的文本,[^E^]表示非E且非^。
3.mat|ook  取出所有ook和mat的文本。
4.colou?r  取出有或者没有u的,color 或者colour
5.oo*h  取出不包含o或者不限次数o的文本(oh,ooh,oooh)
6.o+h 结果同5
7.baa+   结果为: baa,baaa……
8.beg.n  结果为 : begin ,begun,beg3n,……
9.[tT]he   结果为: the,和The


NLP中,会遇到两种匹配错误
type1(罗马数字),false positives,match things we should not match
type2(罗马数字),false negatives,not match things we should have match
为了减少错误率,采取一下两种antagonistic effort(拮抗措施??)
1.提高匹配精度(1)
2.提高覆盖率或者召回率(2)(coverage or recall)
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:71次
    • 积分:10
    • 等级:
    • 排名:千里之外
    • 原创:1篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条
    文章存档