写一个夸夸机器人

最新推荐文章于 2022-03-28 11:34:56 发布

nankaizhl

最新推荐文章于 2022-03-28 11:34:56 发布

阅读量2.1k

点赞数 4

分类专栏： python 智能算法文章标签：聊天机器人夸夸群智能问答 chatbot

本文链接：https://blog.csdn.net/XiaoPANGXia/article/details/88998688

版权

本文介绍了作者尝试创建夸夸机器人的过程，包括利用豆瓣表扬小组的语料库，通过TF-IDF、LSI、LDA等模型进行文本相似度匹配以生成有针对性的表扬语句。同时，还探讨了使用chatterbot库的不足，指出其更适合闲聊而非任务型对话。

摘要由CSDN通过智能技术生成

前段时间夸夸群火热，试着用几种不同方式写一个夸夸机器人。
项目地址https://github.com/xiaopangxia/kuakua_robot。

语料

做聊天机器人需要训练语料，事实上笔者本想潜伏在一些夸夸群里收集，后拉发现这些夸夸群日渐不活跃了，语料的质量也比较差，于是还是去爬了豆瓣表扬小组的数据，收集的语料地址https://github.com/xiaopangxia/kuakua_corpus。

基于文本相似度

相似度用的是传统离散词袋，采用TF-IDF、LSI、LDA模型等，搜索top4相似话题的回复，从中随机返回表扬语句，效果还不错，能够有一定针对性地夸人。

import random
from zhcnSegment import zhcnSeg
from sentenceSimilarity import SentenceSimilarity

class kuakuaChat():
    def __init__(self):
        """
        初始化夸夸话题回复表
        """
        self.qa_dict = {}
        self.q_list = []
        with open('./douban_kuakua_topic.txt', 'r', encoding='utf8') as in_file:
            for line in in_file.readlines():
                que = line.split('<######>')[0].strip()
                ans_list = []
                for ans in line.split('<######>')[-1].split('<$$$$$$>'):
                    if len(ans) > 2:
                        ans_list.append(ans)

                if len(que)>5: