词频权值TF-ITF算法-实现问答机器人
2012/8/1
一. 实现了什么?
中国移动因为人工客服不够,推出了发短信回答移动用户查询的问题。Iphone 推出Siri语音回答功能。这些都是简化人工,机器实现人工一些基本工作的例子。网络上用户对特定范围提出问题,如购物买车网站,通过人工回答成本高,用户无法立刻获得反馈,如果并发量大,客服需要重复回答同意或类似问题。如何简化工作,提供即时反馈成为一个目标,是我们解决的,本系统就是解决了这个问题。
二. 主要思想
通常的文本查找通过单纯的关键字查找实现查找相关的问题记录,但是这里有个问题,一个问题那么多关键字,它们的重要性不一样,查找的关键词不应该是一个,而是多个。
为此,根据当前搜索记录网页的思想-词权值(Term Frequency) ,TF-ITF
实现算法:
A. 给问题词库不同的词赋予不同的权重(Wi)
训练库里面有m个词,所有词的词频和为N, 对于第 I 个词,词频为ni
显然
N= ni,(i=1,2,...m)
第i个词的词频
Wi=log(N/ni) , (log 为自然对数)
B. 对于每个问题,留下词库里面存在的词,过滤掉无用或权重不大的词,摘取top n ( n为