ChatterBot+第三方中文语料库实现在线聊天机器人

设计并实现一个在线聊天机器人案例

1、ChatterBot

ChatterBot是Python自带的基于机器学习的语音对话引擎,可以基于已知的对话库来产生回应。ChatterBot独特的语言设计可以使它可以通过训练来用任何一种语言进行对话。该项目的开源代码链接:https://github.com/gunthercox/ChatterBot

2、应用案例描述

ChatterBot包含的工具有助于简化训练聊天机器人实例的过程。ChatterBot的训练过程涉及将示例对话框加载到聊天机器人的数据库中。这可以创建或构建代表已知语句和响应集的图数据结构。当一个聊天机器人训练师被提供一个数据集时,它会在聊天机器人的知识图中创建必要的条目,以便正确表示语句输入和响应。

2.1 通过列表数据进行训练
chatterbot.trainers.ListTrainer(storage, **kwargs)

允许使用对话字符串列表来训练ChatBot

对于训练过程,需要传递一个语句列表,其中每个语句的顺序基于其在给定对话中的位置。

例如,如果你使用如下语言进行训练,则当你输入Hi there!或者Greetings!的时候机器人会回复你Hello

from chatterbot import ChatBot
from chatterbot.trainers import ListTrainer

chatterbot = ChatBot("Training Example")
chatterbot.set_trainer(ListTrainer)

chatterbot.train([
    "Hi there!",
    "Hello",
])

chatterbot.train([
    "Greetings!",
    "Hello",
])

还可以提供更长的训练对话清单。这将在列表中建立每个项目作为响应。

chatterbot.train([
    "How are you?",
    "I am good.",
    "That is good to hear.",
    "Thank you",
    "You are welcome.",
])

以上介绍来源于:[ ChatterBot聊天机器人 ] ChatterBot训练数据以及使用三方语料库训练数据 - pytorch中文网

下面为原创内容

3、使用第三方中文语料库进行训练

大佬整理的语料库地址:https://github.com/codemayq/chinese_chatbot_corpus

在这里插入图片描述

chatterbot自带的语料库可以通过以下代码来实现,不需要额外下载:

from chatterbot.trainers import ChatterBotCorpusTrainer

chatterbot = ChatBot("Training Example")
chatterbot.set_trainer(ChatterBotCorpusTrainer)

chatterbot.train(
    "chatterbot.corpus.english"
)

我选择了语料数量较少的xiaohuangji语料库:https://github.com/candlewill/Dialog_Corpus

首先下载未分词的语料库

在这里插入图片描述

下载解压后将后缀改为.txt

在这里插入图片描述

打开后是这样的:

在这里插入图片描述

接下来就是把txt文件按行读取并存入列表中,注意要跳过’E’那一行,并且把每句话开头的’M '去掉

具体代码为:

#导入语料库
file = open("./corpus/xiaohuangji50w_nofenci.txt",'r',encoding='utf-8')
corpus = []
print('开始加载语料!')
while 1:
    try:
        line = file.readline()
        if not line:
         break
        if line == 'E\n':
            continue
        corpus.append(line.split('M ')[1].strip('\n'))
    except:
        pass
file.close()
print('语料加载完毕')

处理后效果:

在这里插入图片描述

如果出现下面的报错,在将line.split('M ')[1].strip('\n')存入corpus列表前print(line.split('M ')[1].strip('\n'))就好了

在这里插入图片描述

4、应用案例实现
4.1 开始训练

我们取前10000条语料进行训练my_bot.train(corpus[:10000])

my_bot = ChatBot("xiaohuangji")
my_bot.set_trainer(ListTrainer)
print('开始训练!')
my_bot.train(corpus[:10000])
print('训练完毕!')
while True:
    print(my_bot.get_response(input("user:")))

在这里插入图片描述

4.2 训练结果

在这里插入图片描述

5、总结

由于第一次使用ChatterBot,也没有过多的时间去研究,还不知道怎么直接训练.tsv文件,于是采取直接读取txt,然后通过列表数据进行训练chatterbot.trainers.ListTrainer(storage, **kwargs)

经过实践该种方法在训练大量语料时很慢,训练10000条语料后的回答时间大概在一分钟,不过回答的质量是高于chattbot提供的560条中文语料训练的结果的。

6、参考文章

[ ChatterBot聊天机器人 ] ChatterBot训练数据以及使用三方语料库训练数据

[两种开源聊天机器人的性能测试(一)——ChatterBot]

  • 14
    点赞
  • 101
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
# 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 - chatterbot - 豆瓣多轮 - PTT八卦语料 - 青云语料 - 电视剧对白语料 - 贴吧论坛回帖语料 - 微博语料 - 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 **使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。* # 环境 python3 # 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 # 使用方法 将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为 ``` raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ... ``` 执行命令即可 ```bash python main.py ``` 或者 ```bash python3 main.py ``` # 生成结果 每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。 生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer ``` query \t answer ``` # 结果的使用 这个就根据每个人不同的情况自主使用即可 个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考 **《从产品完整性的角度浅谈chatbot》** 文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。 1. chatbot自身人格的设置 1. 产品上线需要考虑的敏感词处理 1. 文本检索模型的使用 1. 文本生成模型的使用 1. 回答打分机制 1. 万能回答的使用策略 1. 多媒体消息的处理 1. 产品模型部署的问题 # 版权说明 本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。
在使用Python训练聊天机器人时,可以使用第三方库如ChatterBot和NLTK。 ChatterBot是一个Python库,可以训练聊天机器人,通过编写一个训练集合,可以让机器人学习如何回答用户提出的问题。以下是一个简单的ChatterBot训练代码: ``` from chatterbot import ChatBot from chatterbot.trainers import ListTrainer # 创建一个ChatBot实例 chatbot = ChatBot('mybot') # 创建一个训练集合 training_data = [ '你好', '你好,有什么需要帮助的吗?', '你喜欢什么颜色?', '我喜欢蓝色。', '你喜欢什么动物?', '我喜欢狗。', '你今年多大了?', '我是一个机器人,没有年龄。', ] # 创建一个ListTrainer实例 trainer = ListTrainer(chatbot) # 训练机器人 trainer.train(training_data) # 测试机器人 response = chatbot.get_response('你好') print(response) ``` 该代码创建了一个名为`mybot`的ChatterBot实例,然后创建了一个由一些简单的问题和答案组成的训练集合`training_data`。接下来,代码创建了一个ListTrainer实例,并将训练集合传递给它。最后,代码测试机器人对一个问题的回答,并输出机器人的回答。 除此之外,还可以使用NLTK(自然语言工具包)库来训练聊天机器人。NLTK库提供了大量的自然语言处理工具,可以用来处理和分析语言数据。以下是一个简单的使用NLTK训练聊天机器人的代码: ``` import nltk from nltk.chat.util import Chat, reflections # 创建一个基于pattern的ChatBot pairs = [ ['你好|你好啊|嘿', ['你好,你需要帮助吗?', '嗨,你希望我能为你做些什么?']], ['(.*)很高兴认识你(.*)', ['我也很高兴认识你。']], ['哪里人|哪里的', ['我来自程序员的电脑里。']], ['好的,谢谢', ['不用谢。']], ['再见|拜拜|下次见', ['再见,祝你有美好的一天!']], ] chatbot = Chat(pairs, reflections) chatbot.converse() ``` 该代码使用`nltk.chat.util`模块提供的Chat类创建了一个基于pattern(模式)的聊天机器人。`pairs`变量是一个包含问题和答案组成的列表,它定义了机器人的预期对话。最后,使用`chatbot.converse()`方法让机器人开始和用户进行交互。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值