正则做文本分类

优点

对于一种明确的表达句式,正则可以很好地泛化,如FAQ问题的描述。

eg:在哪修改登录密码?【修改登录密码】
re:(?=.*(修改||更新))(?=.*(登录密码|登录的密码))
即只要包含修改和登录密码两个语义词汇的表达都是这个faq,这样可以避免穷举类似的句子来让模型匹配

缺点

1.对于一个语义多样性很庞大的类别,正则表达式条数就会随着多样性而线性增加,最后难以维护和每次都要新增。

eg:我在开会,不方便【用户忙】
eg:赶地铁呢【用户忙】
eg:在开车呢【用户忙】
eg:晚点吧,现在不行【用户忙】

上述四句话只能根据其语义场景一条条正则来写,没法写成一条。正则数量和场景数成正比

2.对于存在很多相似表达的多个类别,正则表达式既要考虑覆盖这个表达式,还要考虑排除其他类似表达的类别。

eg:要,分6期吧【指定期数】
eg: 要分6期吗【询问期数】
eg: 要分6期,分12期的话,利息一样吗【咨询多个期数的利息】
eg:不要分6期,分12期吧【指定期数】
eg:哦,6期吧【指定期数】
eg:哦,6期是多少?【咨询单个期数的利息】

【指定期数】这个意图的正则只需要包含【分|办】【x期】这两个成分就可以了,但这样会把后面的【询问期数】【咨询多个期数的利息】【咨询单个期数的利息】都识别进来了,所以需要做一个排除逻辑,即需要把后面几个类别的多余语义排除关键词写进来,这样编写逻辑十分复杂。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值