第TR5周：Transformer实战-单词预测（待续）

lihuhelihu

已于 2024-08-05 23:00:07 修改

阅读量392

点赞数 3

分类专栏： Transformer白皮书文章标签： transformer 深度学习自然语言处理神经网络机器学习机器翻译语言模型

于 2024-08-05 22:59:17 首次发布

本文链接：https://blog.csdn.net/lihuhelihu/article/details/140938986

版权

Transformer白皮书专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文为365天深度学习训练营中的学习记录博客
原作者：K同学啊

模型结构图：
在这里插入图片描述

任务：
●理解文中代码逻辑并成功运行
●自定义输入一段英文文本进行预测（拓展内容，可自由发挥）

这是一个关于使用 Transformer 模型来预测文本序列中下一个单词的教程示例，这里整体的理解感受一下Transformer程序。

本文使用的是Wikitext-2数据集，WikiText 英语词库数据（The WikiText Long Term Dependency Language Modeling Dataset）是一个包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到，包括WikiText-2和WikiText-103两个版本，相比于著名的 Penn Treebank (PTB) 词库中的词汇数量，前者是其2倍，后者是其110倍。每个词汇还同时保留产生该词汇的原始文章，这尤其适合当需要长时依赖(longterm dependency)自然语言建模的场景。

Wikitext-2数据集：
1.数据来源：Wikitext-2数据集是从维基百科抽取的，包含了维基百科中的文章文本。
2.数据内容：Wikitext-2数据集包含维基百科的文章内容，包括各种主题和领域的信息。这些文章是经过预处理和清洗的，以提供干净和可用于训练的文本数据。
3.数据规模：Wikitext-2数据集的规模相对较小。它包含了超过2,088,628个词标记（token）的文本，以及其中1,915,997个词标记用于训练，172,430个词标记用于验证和186,716个词标记用于测试。
4.数据格式：Wikitext-2数据集以纯文本形式进行存储，每个文本文件包含一个维基百科文章的内容。文本以段落和句子为单位进行分割。
5.用途：Wikitext-2数据集通常用于语言建模任务，其中模型的目标是根据之前的上下文来预测下一个词或下一个句子。此外，该数据集也可以用于其他文本生成任务，如机器翻译、摘要生成等。

一、定义模型

lihuhelihu

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
第TR5周：Transformer实战-单词预测（待续）

本文使用的是Wikitext-2数据集，WikiText 英语词库数据（The WikiText Long Term Dependency Language Modeling Dataset）是一个包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到，包括WikiText-2和WikiText-103两个版本，相比于著名的 Penn Treebank (PTB) 词库中的词汇数量，前者是其2倍，后者是其110倍。
复制链接

扫一扫

专栏目录