CNN/DailyMail训练文本摘要模型

最新推荐文章于 2025-03-19 23:35:08 发布

朱雀333

最新推荐文章于 2025-03-19 23:35:08 发布

阅读量1.3k

点赞数 9

分类专栏：人工智能文章标签：人工智能

本作品采用“Creative Commons Attribution-NoDerivatives 4.0 International License”（署名-禁止演绎 4.0 国际许可证）进行许可。要查看该许可证的副本，请访问 https://creativecommons.org/licenses/by-nd/4.0/

本文链接：https://blog.csdn.net/qq_35827483/article/details/135614907

版权

要使用 TensorFlow Datasets (TFDS) 来训练一个文本摘要模型，可以选择一个包含文章和摘要的数据集，例如 CNN/DailyMail 数据集。

这个数据集通常用于训练和评估文本摘要模型。

以下是使用 TFDS 加载数据集并训练一个简单的序列到序列 (seq2seq) 模型的过程。

首先，确保安装了 TensorFlow Datasets：

pip install tensorflow tensorflow-datasets

然后，以下是训练文本摘要模型的完整代码：

import tensorflow as tf
import tensorflow_datasets as tfds
from tensorflow.keras.models import Model
from tensorflow.keras.layers import TextVectorization, Embedding, LSTM, Dense

# 加载 CNN/DailyMail 数据集
data, info = tfds.load('cnn_dailymail', with_info=True, as_supervised=True)
train_data, val_data = data['train'], data['validation']

# 为了加快演示，我们将只使用一小部分数据
train_data = train_data.take(5000)
val_data = val_data.take(1000)

# 定义文本向量化和序列长度
sequence_length = 512
vocab_size = 20000
vectorize_layer = TextVectorization(max_tokens=vocab_size, output_mode='int', output_sequence_length=sequence_length)

# 准备数据集
def prepare_dataset(data):
    articles = data.map(lambda article, summary: article)
    summaries = data.map(lambda article, summary: summary)
    vectorize_layer.adapt(articles)
    vectorized_articles = articles.map(lambda x: vectorize_layer(x))
    vectorized_summaries = summaries.map(lambda x: vectorize_layer(x))
    dataset = tf.data.Dataset.zip((vectorized_articles, vectorized_summaries)).batch(32).prefetch(tf.data.AUTOTUNE)
    return dataset

train_dataset = prepare_dataset(train_data)
val_dataset = prepare_dataset(val_data)

# 构建一个简单的 seq2seq 模型
embedding_dim = 128
lstm_units = 256

# 编码器
encoder_inputs = tf.keras.Input(shape=(None,), dtype='int64&

最低0.47元/天解锁文章