浅谈AI聊天机器人

最新推荐文章于 2024-08-09 17:20:48 发布

netcaoniao

最新推荐文章于 2024-08-09 17:20:48 发布

阅读量5.2k

点赞数 3

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/codinghappiness/article/details/90439611

版权

自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

聊天机器人是NLP(自然语言处理)上的一个重要研究和实际落地的方向

前段时间听了网上一个关于聊天机器人的公开课，对聊天机器人有了初步的认识，就此做一些总结

聊天机器人的种类和评估

种类

左边的第一种属于闲聊机器人，一般采用端到端的方法去做

中间和右边的是任务导向型机器人，偏重于解决某一类问题。中间的是通过对话完成订票的任务，右边的则时完成学员对培训课程的咨询，一般采用意图识别的方法去做

聊天机器人的评估方法

闲聊型chatbot: 聊了多久？对话轮次怎么样？用户情感变化怎么样？

任务导向型chatbot: 多少人订单成功？平均花了多久完成订单？用户评价？

聊天机器人搭建的四种方法论

基于检索的方法
基于模式匹配的方法（设计一些规则）
基于意图识别的方法（识别用户的意图，常用的方法和主流的）
生成式方法(i.e,端到端)（利用deeplearning生成一些回复，还没达到商用的地步）

基于检索的方法

跟搜索引擎比较类似

知识库里面存储的是问题和答案的键值对，将知识库里面的数据键值对中的问题和指定的问题做一个相似度的计算得到相似度最高的那个数据，在将那个数据的答案返回

案例分析：

用户输入为 “我想了解老师的背景” 计算出和知识库里面的第五条的相似度最高为0.9 所以返回回答 “绝大部分都是全美前10学校的博士”

一个核心问题：怎么计算两个短句子的相似度

用tf-idf或者word-embedding的形式将句子转换成向量，再计算两个向量之间的余弦相似度

直接上代码

问题数据 question.dat

回答数据 answer.dat

def read_corpus(file):
     with open(file, mode='r', encoding='UTF-8') as fp:
         data = fp.readlines()
     return data

questions = read_corpus('question.dat')
answers = read_corpus('answer.dat')

# print("questions\n{0}\n".format(questions))
# print("answers\n{0}\n".format(answers))

#一个原始的文本转换成向量
import jieba # 分词工具，最为常用的分词工具
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

#Step1 : 对所有问题分词
question_seg = [" ".join (jieba.cut(q, cut_all=False)) for q in questions]

from sklearn.metrics.pairwise import cosine_similarity

#Step2 : 将字符串转换成向量
vertoeizer = TfidfVectorizer()
X = vertoeizer.fit_transform(question_seg) #X是矩阵
# print("X\n{0}\n".format(X))  #稀疏矩阵
# print("X.toarray()\n{0}\n".format(X.toarray())) #非稀疏矩阵

def bit_product_sum(x, y):
    return sum([item[0] * item[1] for item in zip(x, y)])

def complete_vector_each(data, len_data, max):
    if len_data >= max:
        return data
    for i in range(max - len_data):
        data.append(0)
    return data

def complete_vector(x,y):
    len_x = len(x)
    len_y = len(y)
    if len_x != len_y:
       max_len = max(len_x, len_y)
       x =  complete_vector_each(x, len_x, max_len)
       y =  complete_vector_each(y, len_y, max_len)
    return x, y

def cosine_similarity_1(x, y, norm=False):
    """ 计算两个向量x和y的余弦相似度 """
    # aa = [1,2,3,4]
    # bb=  [10]
    # aa,bb =  complete_vector(aa, bb)
    # print(aa)
    # print(bb)

    x,y = complete_vector(x,y)

    # method 2
    cos = bit_product_sum(x, y) / (np.sqrt(bit_product_sum(x, x)) * np.sqrt(bit_product_sum(y, y)))

    return 0.5 * cos + 0.5 if norm else cos  # 归一化到[0, 1]区间内

def get_max_idx(input_vec):
    cosine_similarity_values = []
    for x in X:
        cosine_similarity_value = cosine_similarity_1(x.toarray()[0], input_vec.toarray()[0], norm=True)
        cosine_similarity_values.append(cosine_similarity_value)
    #return np.argmax(np.array(cosine_similarity_values))
    return cosine_similarity_values.index(max(cosine_similarity_values))

def get_response(input):
    input_seq = " ".join(jieba.cut(input, cut_all=False))
    input_vec = vertoeizer.transform([input_seq])

    # result = cosine_similarity(input_vec,X)[0]
    # max_idx = np.argmax(result)

    max_idx = get_max_idx(input_vec)
    return answers[max_idx]

print(get_response("导师的背景是什么啊?"))
print(get_response("大部分是线上的课程吗?"))
print(get_response("课程为什么收费高?"))

sklearn.metrics.pairwise中的cosine_similarity计算余弦相似度的方法也可以自己实现，当两个向量的长度不一致的时候,可以采取补0的操作

运行一下得到结果