keras 问答匹配孪生网络文本匹配 RNN 带有数据

最新推荐文章于 2022-07-13 16:06:23 发布

机器玄学实践者

最新推荐文章于 2022-07-13 16:06:23 发布

阅读量1.6k

点赞数

分类专栏：监督学习算法文章标签： RNN 句子匹配 NLP 问答匹配 keras

本文链接：https://blog.csdn.net/weixin_39673686/article/details/88946516

版权

本文详述了如何使用Keras构建一个简单的问答匹配网络，涉及数据预处理、RNN编码器和Lambda层来计算文本匹配度。通过淘宝客服对话数据集，对对话拆解为QA对，并利用词频统计构建词汇表，将句子转化为ID序列。网络结构包括两个RNN编码器和一个计算向量差的Lambda层，最终输出匹配概率。

摘要由CSDN通过智能技术生成

用途：

这篇博客解释了如何搭建一个简单的匹配网络。并且使用了keras的lambda层。在建立网络之前需要对数据进行预处理。处理过后，文本转变为id字符序列。将一对question,answer分别编码可以得到两个向量，在匹配层中比较两个向量，计算相似度。

网络图示：

数据准备：

数据基于网上的淘宝客服对话数据，我也会放在我的下载页面中。原数据是对话，我筛选了其中label为1的对话。然后将对话拆解成QA对，q是用户，a是客服。然后对于每个q，有一个a是匹配的，label为1.再选择一个a，构成新的样本，label为0.

超参数：

比较简单，具体看代码就可以了。

# dialogue max pair q,a
max_pair = 30000
# top k frequent word ,k
MAX_FEATURES = 450
# fixed q,a length
MAX_SENTENCE_LENGTH = 30
embedding_size = 100
batch_size = 600
# learning rate
lr = 0.01
HIDDEN_LAYER_SIZE = n_hidden_units = 256  # neurons in hidden layer

细节：

导入一些库

# -*- coding: utf-8 -*-
from keras.layers.core import Activation, Dense, Dropout, SpatialDropout1D
from keras.layers.embeddings import Embedding
from keras.layers.recurrent import LSTM
from keras.preprocessing import sequence
from sklearn.model_selection import train_test_split
import collections
import matplotlib.pyplot as plt
import nltk
import numpy as np
import os
import pandas as pd
from alime_data import convert_dialogue_to_pair
from parameter import MAX_SENTENCE_LENGTH,MAX_FEATURES,embedding_size,max_pair,batch_size,HIDDEN_LAYER_SIZE
DATA_DIR = "../data"
NUM_EPOCHS = 2
# Read training data and generate vocabulary
maxlen = 0
num_recs = 0

数据准备，先统计词频，然后取出top N个常用词，然后将句子转换成单词id的序列。把句子中的有效id靠右边放，将句子左边补齐padding。然后分成训练集和测试集

word_freqs = collections.Counter()
training_data = convert_dialogue_to_pair(max_pair)
num_recs  = len([1 for r in training_d

最低0.47元/天解锁文章

机器玄学实践者

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录