NLP学习笔记1 text processing

coursera的教程https://class.coursera.org/nlp/lecture
regular expression介绍
1.[Ww]  表示从文本中提取出W和w,[A-Z]提取所有大写字母,[A-Za-z]提取所有大小写字母。
2.[^Ww]取出不是W和w的文本,[^E^]表示非E且非^。
3.mat|ook  取出所有ook和mat的文本。
4.colou?r  取出有或者没有u的,color 或者colour
5.oo*h  取出不包含o或者不限次数o的文本(oh,ooh,oooh)
6.o+h 结果同5
7.baa+   结果为: baa,baaa……
8.beg.n  结果为 : begin ,begun,beg3n,……
9.[tT]he   结果为: the,和The


NLP中,会遇到两种匹配错误
type1(罗马数字),false positives,match things we should not match
type2(罗马数字),false negatives,not match things we should have match
为了减少错误率,采取一下两种antagonistic effort(拮抗措施??)
1.提高匹配精度(1)
2.提高覆盖率或者召回率(2)(coverage or recall)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值