query意图分类-lexparser

概述

在query意图分析中,lexparser一种基于规则的词法分析工具,用于检查输入是否符合指定的模式。在需求前期,只需要一些运营数据和规则,就能够快速满足头部query的需求。

组成

模式(pattern)

pattern用来描述指定的模式,例如可以认为 [D:novel][D:author]出版时间 是一类匹配小说出版时间的模式,[D:novel]原文是一类匹配小说内容的模式。pattern由以下几种语法组成:

  • D语法,表示完全匹配。
  • W语法, 表示通配符, 例如 [D:novel][W:1-12] 表示在精准匹配到novel后允许有1-12个字节可以不用理会。
  • 固定词,例如上述pattern中的’出版时间’。
  • 停用词, 例如query=天空八部在哪下载, ‘在哪’这个词对意图无影响,视为可以忽略的词,也成为停用词。

数据

从上述几种语法,可以推断通常来说包含以下三类数据配置:

  1. 记录有哪些pattern的pattern文件
# 每一行格式: pattern \t 属性
[D:novel][D:author]下载	1001
[D:entity]	1002
  1. 记录具体pattern词的dict文件
[D:novel]
天龙八部		1008
天龙人
仙剑奇缘
[D:entity]
天蚕土豆大主宰
天蚕土豆武动乾坤
[D:author]
天蚕土豆
唐家三少
  1. 记录停用词的ignore文件
怎么样
在哪

基本原理

两棵树:

  1. 所有pattern组成的pattern树
  2. 所有pattern词、可忽略词、固定词组成的词典树
    pattern树和词典树

具体实现

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值