智能聊天机器人

最新推荐文章于 2022-12-18 00:38:03 发布

newnember

最新推荐文章于 2022-12-18 00:38:03 发布

阅读量2.4k

点赞数 1

分类专栏：人工智能文章标签：聊天机器人人工智能 ai

人工智能专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 什么是智能聊天机器人

简单地说，就是基于人工智能原理(Artificial Intelligence，以下简称AI)，通过对聊天文本进行分析后给出应答的一类程序。

2.基本原理

AI聊天机器人的工作可以被分成两个部分：训练+匹配。

2.1训练

训练的过程，目的在于构建或是丰富词库。

流程描述如下：

S1：用户通过教学界面向系统提出一个话题与相应应答；

S2：系统对该话题进行分词，判断该话题在系统知识库中应存放的位置；

S3：在系统知识库中添加该话题及相应应答。

可以看到，这里涉及到两个问题：给出一个话题，系统是如何分词的？词库要如何设计才能又快又准地应答？

2.11分词

这是因为聊天机器人的存储并不以句子为单位（那样太费时费空间），而是以词。于是，分词，几乎成为聊天机器人的核心。

中文分词技术俨然是一个重要的研究方向，隶属于自然语言处理。现有的分词算法可以分为三大类：基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法。用户在聊天时的一个显著特点是所提出的话题一般都是比较短小的，而不是长篇大论，不具有段落篇章结构，绝大多数就是少数几句话。基于统计的分词方法适用于有段落、篇章结构以及上下文关系的文段。基于理解的分词方法目前并不成熟，且时间复杂度高，速度慢。于是，只有基于字符串匹配的分词是比较适合的。

基于字符串匹配的分词方法，又叫做机械分词方法。按照扫描方向的不同，机械分词法可以分为正向匹配和逆向匹配。（e.g. 字符串“北京华烟云”，正向匹配为《北京，华烟云》，逆向匹配为《北，京华烟云》）逆向匹配的切分正确率要高于正向匹配法，为了便于发现歧义切分，有时候将两者结合起来形成双向匹配法。按照不同长度优先匹配的情况，可以分为最大（最长）匹配和最小（最短）匹配，也就是长词优先和短词优先。按照匹配不成功时重新切取的策略，机械分词法可以分为增字法和减字法。

基于词典的“双向最大匹配”法是目前中文信息处理中最简单有效的方法，有这样的统计：汉语文本中90％左右的句子，其与双向最大匹配的结果相吻合，而且是正确的分词结果。

当正、反向最大匹配算法得出来的切分结果不一样时，就必须对其进行歧义处理，在此不再赘述。

2.12词库设计

由于中文词的特点：1.中文词是一个开放集，词数在增长；2.以不同字开头的词的数目变化很大，多的达到数百个，少的也有可能只有一个或者没有；3.词的长度变化也很大，有单字词，也有由六、七个字成词的。这就要求在设计词典时，除了考虑访问效率外，还得充分考虑存储利用率。

请看这种数据结构，就能很好地平衡时间与空间。 

首字Hash表通过一次哈希运算就可以直接定位汉字在表中的位置。一个单元包括三项内容：C：存储首字；F标志位：存储以C为首字的最长词条的长度；P：指向词表索引表。