构建自己的智能聊天机器人

转自:

http://blog.just4fun.site/create-a-smart-chat-bot.html


(说明: 这篇文章读者较多,时常会收到邮件咨询问题, 大多是因为文章落后于源码库,我之后定期更新到最新源码库,大家之后发邮件,也麻烦注明使用的依赖库版本)

The answer to life, universe and everything is 42 --deepThought

今年的F8 开发者大会,Facebook大谈他们看好聊天机器人的未来 。通过这些聊天机器人,用户可以在交谈中完成许多任务,在线购物,航班查询、组织会议等。如此一来,用户再不必下载一堆app,而只需打开一个简单的文本对话框,你就可以对着它说:神灯神灯,我的第三个愿望是我还要三个愿望

你说不定想到了:hi siri

说不定又是一次用户入口的重新洗牌,这样就不难解释科技界的大公司们蜂拥而至了

缘起

我一直对自然语言处理(NLP)兴致勃勃,这大半年对机器学习/深度学习兴致盎然,而聊天机器人恰好结合了两者。

对聊天机器人最早的兴趣可能追溯到大学。当时关注过一段时间风靡人人网的小黄鸡,后来发现它只是调用了一个闭源的云服务,转而折腾AIML。

最近下班后喜欢到星巴克看看课程(近期在跟udacity的这门课:Deep Learning),写写博客,今天也是如此,怕往后的时间会更多花在深度学习上(对RNN尤其感兴趣),这几天陆续对折腾过的聊天机器人做个笔记

聊天机器人 & 开源框架

目前聊天这块的云服务倒是不少,facebook也好微软也好,都有自己的框架。相比而言,开源的项目倒是没有很耀眼的,也许是起步不久的原因,大神们还在憋大招。

我们到github逛一圈,发现ChatterBot看起来挺酷, 项目活跃, 文档清晰,代码也算干净利落。

由于项目还小,源码读起来十分容易,作为构建自己的智能聊天机器人的脚手架是不错的

ChatterBot

ChatterBot是一个基于机器学习的聊天机器人引擎,构建在python上,可以从已有的对话中学习, 该项目的设计允许它接入任何语言

原理

一个未经训练的ChatterBot机器人,并没有与用户交谈所需的知识。每当用户输入一句话,机器人将存下它,同时也存下答复的句子。 随着机器人接受的输入的增加,它能够回答的问题的数量和准确度都会相应提升.程序是如何响应用户输入的呢?首先从已知句子中匹配出与用户输入最相近的句子(如何衡量相近, 大家可以想想),之后找到最有可能的回复,那么如何得出最有可能的回复呢?由所有和机器交流过的人们,对这个输入问题(匹配过的)的各个回答的频率决定

安装和使用

安装

pip install chatterbot (我的当前版本是:chatterbot==0.5.4)

基本使用

from chatterbot import ChatBot
from chatterbot.trainers import ChatterBotCorpusTrainer

chatbot = ChatBot("myBot")
chatbot.set_trainer(ChatterBotCorpusTrainer)

# 使用英文语料库训练它
chatbot.train("chatterbot.corpus.english")

# 开始对话 
chatbot.get_response("Hello, how are you today?")

采用中文语料库

我之前给这个项目添加了中文语料库,在新版本中可以直接使用

使用中文语料库来训练机器人(仅支持python3)

from chatterbot import ChatBot
from chatterbot.trainers import ChatterBotCorpusTrainer
deepThought = ChatBot("deepThought")
deepThought.set_trainer(ChatterBotCorpusTrainer)
# 使用中文语料库训练它
deepThought.train("chatterbot.corpus.chinese")  # 语料库

------------更新于2016.08.30

我今天在pypi上看到,0.4.6版本(08.14号上传)已经把中文预料库包含在内了,直接pip3 install ChatterBot就行

------------更新于2017.1.4

需要注意的是,python2中使用,不能直接用语料训练,需要手动训练

参见FAQ中的 手动训练(手动训练可以直接在python2中使用中文)

开始玩耍

print(deepThought.get_response("很高兴认识你"))
print(deepThought.get_response("嗨,最近如何?"))
print(deepThought.get_response("复杂优于晦涩")) #语出 The Zen of Python
print(deepThought.get_response("面对模棱两可,拒绝猜测的诱惑."))
# print(deepThought.get_response("生命、宇宙以及世间万物的终极答案是什么?"))

FAQ(非官方)

默认配置

默认情况下, ChatterBot 使用 JsonDatabaseAdapter作为storage adapter,使用 ClosestMatchAdapter 作为 logic adapter, 使用 VariableInputTypeAdapter 作为 input adapter

手动训练

稀土掘金上的小伙伴@guoweikuang问道"采用中文语料库那个地方是怎么操作的",下边补充手动训练的办法。对原理有兴趣可以翻阅源码

from __future__ import unicode_literals
from chatterbot import ChatBot
from chatterbot.trainers import ListTrainer
deepThought = ChatBot("Training demo")
deepThought.set_trainer(ListTrainer)
deepThought.train([
    "嗳,渡边君,真喜欢我?",
    "那还用说?",
    "那么,可依得我两件事?",
    "三件也依得",
])


# test
print(deepThought.get_response("真喜欢我?"))
print(deepThought.get_response("可依得我两件事?"))

----------更新于2016.10.26

通过设置好编码环境我们可以在python2使用中文训练机器人,这样就不需要在python2/3中来回切换了(我把它封装为服务不存在这个问题,且效率提高)

from __future__ import unicode_literals
import sys;reload(sys);sys.setdefaultencoding('utf8')
from chatterbot import ChatBot
from chatterbot.trainers import ListTrainer
deepThought = ChatBot("Training demo")
deepThought.set_trainer(ListTrainer)
deepThought.train([
    "嗳,渡边君,真喜欢我?",
    "那还用说?",
    "那么,可依得我两件事?",
    "三件也依得",
])


# test
print(deepThought.get_response("真喜欢我?"))
print(deepThought.get_response("可依得我两件事?"))

只读模式

chatbot = ChatBot("wwjtest", read_only=True) //否则bot会学习每个输入

创建自己的训练类

chatterbot/training

创建自己的adapters

参考默认使用的ClosestMatchAdapterVariableInputTypeAdapter即可

诸如我们可以写一个输入/输出 adapters,对接到微信(我偏好werobot)

io的一个案例是chatterbot-voice(使用方法参考examples/example.py),这个adapters让我们可以使用语音与我们的机器人沟通,原理很简单,我此前折腾过BaiduYuyin,国内用户可以使用它

案例

参考examples ,案例中已经有很多种机器人了

训练好的模型如何分发

训练好的数据,默认存在./database.db(参考jsondatabase.py),不是sqlite数据库,实际是jsondb,对json做了封装(参考jsondb/db.py

算法相关

默认情况下,使用 ClosestMatchAdapter 作为 logic adapter ,用来找出与用户输入最接近的一句话

核心代码为:

from fuzzywuzzy import process

closest_match, confidence = process.extract(
            input_statement.text,
            text_of_all_statements,
            limit=1
)[0]

这里我们用到了fuzzywuzzy,具体用法参考fuzzywuzzy#process

fuzzywuzzy用于计算句子之间的相似度,采用的字符串相似度算法为 Levenshtein Distance(编辑距离算法)

Levenshtein Distance(引用自维基百科)

编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。允许的编辑操作包括:

  • 将一个字符替换成另一个字符
  • 插入一个字符
  • 删除一个字符。

从上述描述我们可以看出,这种算法适用于任何文字,而且我们使用process.extract时,使用中文不会影响相似度度量的准确性。当然我们也可以看出这种算法的缺陷,它无法理解语义的相似性,甚至连同义词都完全无法处理。这是一个十分明显的短板,有必要根据你的问题域重新实现一套度量文本相似的logic adapter

from fuzzywuzzy import fuzz
fuzz.ratio(u"你好", u"你好!") #80 
fuzz.ratio(u"你好", u"你好") #100 

其他算法

time_adapter.py中用到朴素贝叶斯:from textblob.classifiers import NaiveBayesClassifier,这里也是目前唯一一处引用textblob的地方

接受的数据很简单,形如[("what time is it", 1), xxx, xxx,...]

nltk的使用

目前主要用了nltk的word_tokenizewordnetstopwords

todo

这是我最近在做的

  • 使这个项目能更适合训练中文语料库
  • 用其他的文本相似算法写一个logic adapter
  • 加入中文的停用词等(取代nltk的停用词)
  • 使用snownlp和jieba替代既有依赖(nltk和textblob)
  • fork这个项目,采用它的架构,重写一个更适合中文的

有兴趣跟进的小伙伴,可以关注wwj718/deepThought

聊天语料库

聊天语料涉及隐私,网上几乎没有公开的中文语料,我们开脑洞:

  • siri对小冰(用wechat api使对话可编程)
  • 柏拉图《对话录》
  • 《论语》
  • 古龙小说
  • 电影字幕

ChatterBot本身支持python2/python3,如果要使用中文,目前只支持python3

Python2中文问题出在:

statement_list = self.context.storage.get_response_statements()

得到的statement_list是编码错误的句子列表(编解码问题)

解决思路可以参考我的这篇博客:编码相关的笔记

结语

当前这个项目给出了一个漂亮的bot骨架,插件式的设计,十分利于插入强大的功能,这也是这个项目中我最喜欢的地方,就chat bot功能而言,功能比较简单、清晰


avbot 连通 IRC、XMPP 和 QQ群, 并作为 AVIM 群机器人实现 AVIM 群聊功能. 能实时记录聊天信息。每日自动生成新的日志文件。使用方法和介绍参考 社区维基的avbot介绍编译请参考 社区维基的avbot编译指导For Windows 编译注意windows 版本有自动编译版,请到 ftp://ci.avplayer.org 下载。想了解 avbot 最重要的子模块 libwebqq 请点开 libwebqq 目录查看其 README.md支持的系统cmake >= 3.0GCC 系centos >= 7ubuntu >= 14.04debian >= 7和其他一些 gcc >= 4.8 的系统。MSVC 系VisutalStudio 2013 (支持 Vista 以上系统)VisutalStudio 2013 - vc120_xp toolset (支持 Windows XP 以上系统)启用步骤cmake -G "VisualStudio 12 2013 Win64" -T "vc120_xp"icc 系icc >= 14clang 系clang >= 3.4编译注意事项请不要在源码文件夹里直接执行 cmake. 务必创建一个专用的文件夹存放编译中间文件,如建立个 build 文件夹。 然后在 build 文件夹里执行 cmake PATH_TO_AVBOT因为 cmake 有很多时候,需要删除 build 文件夹重新执行,而在源码内部直接 cmake ,则因为文件夹混乱,不好清除中间文件boost 相关boost 需要至少 1.57 版本。boost 请静态编译, gentoo 用户注意 USE=static-libs emerge boostwin 下, boost 请使用 link=static runtime-link=static 执行静态编译 (包括 mingw 下)。linux 下如果必须自己编译 boost 的话,请使用参数 link=static runtime-link=shared --layout=system variant=release --prefix=/usr 执行编译。link=static 表示编译为静态库, runtime-link=static 则表示,应用程序最终会使用静态链接的 C 运行时。这个在 windows 平台是必须的要求。因为 VC 的 C 和 C 运行时打包起来非常麻烦。(mingw 的也一样)linux 那边 runtime-link=shared 表示使用动态链接的 libstdc .so, libstdc .so 无需静态链接,不是么 ;)添加 --layout=system variant=release 才能编译出 libbosot_context.a 这样的不带各种后缀的库版本。MSVC 相关理论上 2012 版本也是支持的,不过没有测试过。cmake 生成好 VC 工程然后打开 avbot.sln 即可。如果 boost 在 c:/boost 则无需额外设置 如果不是,需要设定 BOOST_ROOT, 可以在 cmake-gui 里点 configure 按钮前,通过 "Add Enytry" 按钮添加。关于历史avbot 的历史剧烈膨胀, 达到 127MB 之巨, 已经严重影响到国内用户执行 git clone 了. 正好 avbot 经历了一次重构, 因此重构后 avbot 丢弃全部历史轻装上阵. 当然历史并非真的丢弃, 已经有一份完整的历史在 https://github.com/microcai/avbot 备份了.关于商业开发avbot 提供一份商业授权. 因为 avbot 对 XMPP 协议的支持是使用的 gloox, gloox 是个GPL授权的库. 因此 xmpp 支持会被禁用. 除非你同时购买了 gloox 的商业授权.购买商业授权后, 您可以:1. 修改avbot的代码并无需公开自己的修改 2. 获得为期一年的技术支持 (可续) 3. 将 avbot 集成到自己的商业产品中 标签:avbot  聊天机器人  avplayer
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值