自然语言处理-用于预训练词嵌入的数据集

最新推荐文章于 2024-06-04 00:01:12 发布

白云如幻

最新推荐文章于 2024-06-04 00:01:12 发布

阅读量545

点赞数 11

分类专栏：人工智能深度学习代码笔记文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_43227851/article/details/135537156

版权

人工智能同时被 3 个专栏收录

207 篇文章 12 订阅

订阅专栏

代码笔记

92 篇文章 1 订阅

订阅专栏

深度学习

47 篇文章 0 订阅

订阅专栏

word2vec模型的技术细节和大致的训练方法，让我们来看看它们的实现。具体地说，用于预训练词嵌入模型的数据集开始：数据的原始格式将被转换为可以在训练期间迭代的小批量。

import math
import os
import random
import torch
from d2l import torch as d2l

读取数据集

我们在这里使用的数据集是Penn Tree Bank（PTB）。该语料库取自“华尔街日报”的文章，分为训练集、验证集和测试集。在原始格式中，文本文件的每一行表示由空格分隔的一句话。在这里，我们将每个单词视为一个词元。

#@save
d2l.DATA_HUB['ptb'] = (d2l.DATA_URL + 'ptb.zip',
                       '319d85e578af0cdc590547f26231e4e31cdf1e42')

#@save
def read_ptb():
    """将PTB数据集加载到文本行的列表中"""
    data_dir = d2l.download_extract('ptb')
    # Readthetrainingset.
    with open(os.path.join(data_dir, 'ptb.train.txt')) as f:
        raw_text = f.read()
    return [line.split() for line in raw_text.split('\n')]

sentences = read_ptb()
f'# sentences数: {len(sentences)}'

Downloading ../data/ptb.zip from http://d2l-data.s3-accelerate.amazonaws.com/ptb.zip...

在读取训练集之后，我们为语料库构建了一个词表，其中出现次数少于10次的任何单词都将由“<unk>”词元替换。请注意，原始数据集还包含表示稀有（未知）单词的“<unk>”词元。

vocab = d2l.Vocab(sentences, min_freq=10)
f'vocab size: {len(vocab)}'

'vocab size: 6719'

白云如幻

关注

11
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
自然语言处理-用于预训练词嵌入的数据集

在读取训练集之后，我们为语料库构建了一个词表，其中出现次数少于10次的任何单词都将由“”词元替换。请注意，原始数据集还包含表示稀有（未知）单词的“”词元。word2vec模型的技术细节和大致的训练方法，让我们来看看它们的实现。具体地说，用于预训练词嵌入模型的数据集开始：数据的原始格式将被转换为可以在训练期间迭代的小批量。该语料库取自“华尔街日报”的文章，分为训练集、验证集和测试集。在原始格式中，文本文件的每一行表示由空格分隔的一句话。在这里，我们将每个单词视为一个词元。
复制链接

扫一扫