基于检索的智能问答。目前使用了简单词汇对比、词性权重、词向量3种相似度计算模式。输入符合格式的QA文本文件即可立刻使用。
程序版本和依赖库
使用 python3 运行
jieba 分词使用的库
gensim 词向量使用的库,如果使用词向量vec模式,则需要载入
依赖的文件
如果使用词向量vec模式,需要下载3个文件:Word60.model,Word60.model.syn0.npy,Word60.model.syn1neg.npy
下载地址:http://pan.baidu.com/s/1kURNutT 密码:1tq1
QA文件
QA文件包含想要告知用户的问答内容。
QA文件必须是UTF-8的无bom格式的文本文件。
注释:注释文字由#开头。(整个一行都是注释内容)
问答块格式如下:
【问题】问题标题(可以有1或多个,至少有1个。必须由"【问题】"开头。)
答案内容(可以有多行,必须紧跟着上面的【问题】,多行答案中间不能有空白的行。)
多个问答块之间可以用空白行分割
主程序qa.py
直接运行该文件,即可进行问答。你可以载入自己的QA文件,请保证QA文件格式正确。
robot.answer(inputtxt,'simple_POS') 可得出输入问题的返回答案。
simType参数有如下模式:
simple:简单的对比相同词汇数量,得到句子相似度
simple_POS:简单的对比相同词汇数量,并对词性乘以不同的权重,得到句子相似度
vec:用词向量计算相似度,并对词性乘以不同的权重,得到句子相似度
all:调试模式,把以上几种模式的结果都显示出来,方便对比和调试
utils.py
import logging
from os.path import join, dirname
POS_WEIGHT = {
"Ag": 1, # 形语素
"a": 0.5, # 形容词
"ad": 0.5, # 副形词
"an": 1, # 名形词
"b": 1, # 区别词
"c": 0.2, # 连词
"dg": 0.5, # 副语素
"d": 0.5, # 副词
"e": 0.5, # 叹词
"f": 0.5, # 方位词
"g": 0.5, # 语素
"h": 0.5, # 前接成分
"i": 0.5, # 成语
"j": 0.5, # 简称略语
"k": 0.5, # 后接成分
"l": 0.5, # 习用语
"m": 0.5, # 数词
"Ng": 1, # 名语素
"n": 1, # 名词
"nr": 1, # 人名
"ns": 1, # 地名
"nt": 1, # 机构团体
"nz": 1, # 其他专名
"o": 0.5, # 拟声词
"p": 0.3, # 介词
"q": 0.5, # 量词
"r": 0.2, # 代词
"s": 1, # 处所词
"tg": 0.5, # 时语素
"t": 0.5, # 时间词
"u": 0.5, # 助词
"vg": 0.5, # 动语素
"v": 1, # 动词
"vd": 1, # 副动词
"vn": 1, # 名动词
"w": 0.01, # 标点符号
"x": 0.5, # 非语素字
"y": 0.5, # 语气词
"z": 0.5, # 状态词
"un": 0.3 # 未知词
}
def get_logger(name, logfile=None):
"""
name: logger 的名称,建议使用模块名称
logfile: 日志记录文件,如无则输出到标准输出
"""
formatter = logging.Formatter(
'[%(levelname)1.1s %(asctime)s %(module)s:%(lineno)d] %(message)s',
datefmt='%m/%d/%Y %I:%M:%S'
)
if not logfile:
handler = logging.StreamHandler()
else:
handler = logging.FileHandler(logfile)
handler.setFormatter(formatter)
logger = logging.getLogger(name)
logger.addHandler(handler)
logger.setLevel(logging.DEBUG)
return logger
def similarity(a, b, method='simple', pos_weight=None, embedding=None):
"""a 和 b 是同类型的可迭代对象,比如都是词的 list"""
if not a or not b:
return 0
pos_weight = pos_weight or POS_WEIGHT
if method == 'simple':
# 词重叠率
return len(set(a) & set(a)) / len(set(a))
elif method == 'simple_pos':
sim_weight = 0
for word, pos in set(a):
sim_weight += pos_weight.get(pos, 1) if word in b else 0
total_weight = sum(pos_weight.get(pos, 1) for _, pos in set(a))
return sim_weight / total_weight if total_weight > 0 else 0
elif method == 'vec' and embedding:
# 词向量+词性权重
sim_weight = 0
total_weight = 0
for word, pos in a:
if word not in embedding.wv.index2word:
continue
# 词性权重
cur_weight = pos_weight.get(pos, 1)
# 最大的词向量相似度
max_word_sim = max(embedding.similarity(bword, word) for bword in b)
# 词性权重*最大的词向量相似度
sim_weight += cur_weight * max_word_sim
# 词性权重之和
total_weight += cur_weight
# 返回 词性权重*最大的词向量相似度/词性权重之和
return sim_weight / total_weight if total_weight > 0 else 0
qs_a.txt
【问题】我己签约怎么没有放款?
【问题】已经签约什么时候放款
【问题】签约成功什么时候放款
【问题】你好,我昨天4.20签约的,款怎么一直没有到?
【问题】请问签约了要多久放款
【问题】签约后,还需要等多长时间
【问题】签约后多久下款
【问题】我想问一下,签约到放款要多久
【问题】什么时候放款
签约之后总部会对您的合同进行最后一个环节审核,审核都通过才会放款。签约后审核的时效为1-3个工作日左右
【问题】提前还款
【问题】我要提前还款
【问题】申请提前还款
【问题】我想了解提前还款
【问题】如何提前还款
【问题】提前还款怎么办 我想提前还款,应该怎么操作
提前还款1.还款日前三个工作日与客户经理联系2.利息截止到当期,服务费减免 您要办理提前结清,您提前三个工作日联系门店,在您还款日前后办理不了
【问题】你好初审额度已经出面签也签了还需要等多久
【问题】审批结果要多久?
【问题】提交申请了多久审核
【问题】请问审核需要多久?
【问题】审核一般要几天
【问题】撒时候放款
【问题】审核总共有几个环节
客户审批流程需要经过三个环节:第一环节材料审核(资料齐全,符合标准,且不需要实地征信)时效需要3个工作日左右;第二环节面审(签署合同),时效1个工作日左右;第三环节合同审核,时效1-3个工作日左右。
qa.py
import os
import time
import logging
from collections import deque
import jieba
import jieba.posseg as pseg
from utils import get_logger
from utils import similarity
jieba.dt.tmp_dir = "./"
jieba.default_logger.setLevel(logging.ERROR)
logger = get_logger('qa', logfile="qa.log")
class Repository(object):
"""
知识库类
a是答案(必须是1给), q是问题(1个或多个)
用以存放处理之后的知识库形式
"""
def __init__(self, q):
self.q = [q]
self.a = ""
self.sim = 0
self.q_vec = []
self.q_word = []
def __str__(self):
return 'q=' + str(self.q) + '\na=' + str(self.a) + '\nq_word=' + str(self.q_word) + '\nq_vec=' + str(self.q_vec)
class QA(object):
def __init__(self, zhishitxt, lastTxtLen=10, usedVec=False):
# usedVec 如果是True 在初始化时会解析词向量,加快计算句子相似度的速度
self.lastTxt = deque([], lastTxtLen)
self.zhishitxt = zhishitxt
self.usedVec = usedVec
self.reload()
def load_qa(self):
print('问答知识库开始载入')
self.zhishiku = []
with open(self.zhishitxt, encoding='utf-8') as f:
txt = f.readlines()
abovetxt = 0 # 上一行的种类: 0空白/注释 1答案 2问题
for t in txt: # 读取FAQ文本文件
t = t.strip()
if not t or t.startswith('#'):
abovetxt = 0
elif abovetxt != 2:
if t.startswith('【问题】'): # 输入第一个问题
self.zhishiku.append(Repository(t[4:]))
abovetxt = 2
else: # 输入答案文本(非第一行的)
self.zhishiku[-1].a += '\n' + t
abovetxt = 1
else:
if t.startswith('【问题】'): # 输入问题(非第一行的)
self.zhishiku[-1].q.append(t[4:])
abovetxt = 2
else: # 输入答案文本
self.zhishiku[-1].a += t
abovetxt = 1
for t in self.zhishiku:
for question in t.q:
t.q_word.append(set(jieba.cut(question)))
def load_embedding(self):
from gensim.models import Word2Vec
# 如果不存在词向量文件,则不使用词向量
if not os.path.exists('Word60.model'):
self.vecModel = None
return
# 载入60维的词向量(Word60.model,Word60.model.syn0.npy,Word60.model.syn1neg.npy)
self.vecModel = Word2Vec.load('Word60.model')
for t in self.zhishiku:
t.q_vec = []
for question in t.q_word:
t.q_vec.append({t for t in question if t in self.vecModel.wv.index2word})
def reload(self):
self.load_qa()
self.load_embedding()
print('问答知识库载入完毕')
def maxSimTxt(self, intxt, simCondision=0.1, simType='simple'):
"""
找出知识库里的和输入句子相似度最高的句子
simType=simple, simple_POS, vec
"""
self.lastTxt.append(intxt)
if simType not in ('simple', 'simple_pos', 'vec'):
return 'error: maxSimTxt的simType类型不存在: {}'.format(simType)
# 如果没有加载词向量,那么降级成 simple_pos 方法
embedding = self.vecModel
if simType == 'vec' and not embedding:
simType = 'vec'
for t in self.zhishiku:
questions = t.q_vec if simType == 'vec' else t.q_word
in_vec = jieba.lcut(intxt) if simType == 'simple' else pseg.lcut(intxt)
t.sim = max(similarity(in_vec, question, method=simType, embedding=embedding) for question in questions)
maxSim = max(self.zhishiku, key=lambda x: x.sim)
logger.info('maxSim=' + format(maxSim.sim, '.0%'))
if maxSim.sim < simCondision:
return '抱歉,我没有理解您的意思。请您询问有关业务的话题。'
return maxSim.a
def answer(self, intxt, simType='simple'):
"""simType=simple, simple_POS, vec, all"""
if not intxt:
return ''
if simType == 'all': # 用于测试不同类型方法的准确度,返回空文本
for method in ('simple', 'simple_pos', 'vec'):
outtext = 'method:\t' + self.maxSim(intxt, simType=method)
print(outtext)
return ''
else:
outtxt = self.maxSimTxt(intxt, simType=simType)
# 输出回复内容,并计入日志
return outtxt
if __name__ == '__main__':
robot = QA('qs_a.txt', usedVec=True)
while True:
# simType=simple, simple_pos, vec, all
print('回复:' + robot.answer(input('输入:'), 'vec') + '\n')
词向量文件下载地址
链接:https://pan.baidu.com/s/1c7V91VcWbHPBFIfmtWGb2g 密码:mgps
知识库形式
q=['我己签约怎么没有放款?', '已经签约什么时候放款', '签约成功什么时候放款', '你好,我昨天4.20签约的,款怎么一直没有到?', '请问签约了要多久放款', '签约后,还需要等多长时间', '签约后多久下款', '我想问一下,签约到放款要多久', '什么时候放款']
a=签约之后总部会对您的合同进行最后一个环节审核,审核都通过才会放款。签约后审核的时效为1-3个工作日左右
q_word=[{'签约', '我己', '放款', '怎么', '没有', '?'}, {'签约', '已经', '什么', '放款', '时候'}, {'签约', '成功', '什么', '放款', '时候'}, {'一直', '签约', '你好', '的', '4.20', ',', '怎么', '没有', '?', '我', '到', '昨天', '款'}, {'签约', '要', '请问', '放款', '了', '多久'}, {'签约', '等', '后', '需要', ',', '多长时间', '还'}, {'签约', '下款', '多久', '后'}, {'签约', '要', '多久', ',', '放款', '问', '想', '我', '到', '一下'}, {'什么', '放款', '时候'}]
q_vec=[{'签约', '我己', '放款', '怎么', '没有', '?'}, {'签约', '已经', '什么', '放款', '时候'}, {'签约', '成功', '什么', '放款', '时候'}, {'一直', '签约', '你好', '的', '4.20', ',', '怎么', '没有', '?', '我', '到', '昨天', '款'}, {'签约', '要', '请问', '放款', '了', '多久'}, {'签约', '等', '后', '需要', ',', '多长时间', '还'}, {'签约', '下款', '多久', '后'}, {'签约', '要', ',', '放款', '问', '想', '一下', '我', '到', '多久'}, {'什么', '放款', '时候'}]
- 形成知识库
- 将问题分词
- pseg.lcut 分词带词性
- 带词性权重的词重叠率
- 词性权重
- 词向量相似度
- 词性权重*最大的词向量相似度/词性权重之和