讲座笔记:中文纠错

  • 只要用户输入就可能会出错,比如用户搜索,文本编辑,语音识别。
  • 错误主要分为四种:错别字,与上下文不符(eg 惊醒 or 警醒),知识图谱(eg xxx是先生 or xxx是女士),图文搭配(eg 做飞机 or 坐飞机)

      工业上前两种的研究比较多,后两种难度很大,暂时没有成熟的应用方法。

  • 方法:规则检测,序列标注,MT(SMT,NMT)
      序列标注:EMB|POS,Parser,PMI

      MT:建模,看做一个同语言翻译问题

  • 工程上难点:架构,数据,模型
      架构:需要可插拔式架构,即可以根据场景需求组合模型
      数据:没有平行语料,人工标注成本大

      模型:需要在线学习

  • 工程实践:架构设计,候选召回,候选排序

      架构设计:架构要可插拔

      结构:错误点识别(基础解析),候选召回(倒排,基础检索),候选排序(ranking),多结果合并(多队列融合,特性展现)

      候选召回:Phrase表,ED编辑距离

            Phrase表:音近形似PT和用户反馈PT去噪声;单表,多表压缩

            ED编辑距离:汉字注音;双删除,模糊音,形近字等;模型概率化编辑距离

      候选排序:树模型;GBDT和LR在线学习,用负反馈迭代;word2vec对上下文先验知识进行建模;树模型和NN融合 


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值