关键词提取技术
关键词提取在Query理解中有重要的作用,按照机器学习比较宏观的分类方式可以大致分为有监督和无监督。
有监督的提取方式
无监督的提取方式
(1)基于随即游走的关键词提取(PageRank):
(2)基于统计的关键词提取:
基于统计的关键词提取方式遇见的比较少,本文在短文本Query理解的业务场景中,基于词的词性、长度、位置、idf等基本信息实现了一种关键词提取,效果如下:
北京故宫票价多少钱
res = 多少 钱 票价 北京故宫
同性恋能结婚吗
res = 吗 能 结婚 同性恋
吃什么可以调理身体?
res = ? 可以 什么 吃 身体 调理
北京到哈尔滨还有票吗
res = 吗 到 还有 票 北京 哈尔滨
北京动物园有大熊猫吗
res = 吗 有 大熊猫 北京动物园
怎样让一个人成为一个无敌的人。
res = 的 。 一个 一个 让 人 人 怎样 成为 无敌
我不想上班啊,躺床上多舒服啊!
res = , 多 ! 啊 啊 我 躺 舒服 不想 上班 床上
有什么事情困扰你吗?
res = ? 你 吗 什么 有 困扰 事情
参考
https://baijiahao.baidu.com/s?id=1591633939148835437&wfr=spider&for=pc