医疗问答系统机器人

import pandas as pd
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np
import matplotlib.pyplot as plt
import pickle

# 读取对话数据
data = pd.read_csv('data.csv', encoding='utf-8')

data.info()

# 拆分数据为输入和输出部分
input_texts = data['title'].tolist()
target_texts = data['answer'].tolist()

# 初始化 Tokenizer
tokenizer = Tokenizer(num_words=10000)
tokenizer.fit_on_texts(input_texts + target_texts)

# 保存 Tokenizer
with open('tokenizer.pkl', 'wb') as handle:
    pickle.dump(tokenizer, handle, protocol=pickle.HIGHEST_PROTOCOL)

# 文本转换为序列
input_sequences = tokenizer.texts_to_sequences(input_texts)
target_sequences = tokenizer.texts_to_sequences(target_texts)

# 序列填充
max_sequence_length = 50  # 根据数据长度设定
padded_input_sequences = pad_sequences(input_sequences, maxlen=max_sequence_length)
padded_target_sequences = pad_sequences(target_sequences, maxlen=max_sequence_length)

这段代码目的主要是对对话数据进行预处理，包括数据读取、分词、序列化Tokenzier以及序列填充，以便后续训练深度学习模型，运行一下就是：

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 799 entries, 0 to 798
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   title   799 non-null    object
 1   answer  799 non-null    object
dtypes: object(2)
memory usage: 12.6+ KB

2.使用TensorFlow和Keras构建一个简单的聊天机器人模型

2.1导入了构建模型所需的Keras模块，以及用于处理数组和绘图所需的numpy和matplotlib库

from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, LSTM, Dense, Embedding
import numpy as np
import matplotlib.pyplot as plt

2.2.定义了一个模型构建器，它接受词汇大小、嵌入维度、LSTM单元数和批处理大小作为参数。模型包含一个嵌入层、一个LSTM层和一个密集层。LSTM层返回序列，以便每个时间步都有一个输出，密集层使用softmax激活函数来预测词汇表中的每个单词的概率。

def build_model(vocab_size, embedding_dim, rnn_units, batch_size):
    input = Input(shape=(None,))
    x = Embedding(vocab_size, embedding_dim)(input)
    x = LSTM(rnn_units, return_sequences=True)(x)
    output = Dense(vocab_size, activation='softmax')(x)
    model = Model(inputs=input, outputs=output)
    return model

2.3设置模型的参数，包括词汇表大小、嵌入维度、LSTM单元数和批处理大小

vocab_size = 10000
embedding_dim = 256
rnn_units = 1024
batch_size = 10

2.4建模型，并打印模型的摘要

model = build_model(vocab_size, embedding_dim, rnn_units, batch_size)
model.summary()

2.5准备标签数据

最低0.47元/天解锁文章