方便学习之 torchtext.data 篇章翻译 续集Functions

torchtext

torchtext 包由数据处理实用程序和自然语言的流行数据集组成。

(1) batch (批次)

# Yield elements from data in chunks of batch_size.
# 以batch_size块从数据中产生元素。
torchtext.data.batch(data, batch_size, batch_size_fn=None)

(2) pool (数据资源池)

'''
Sort within buckets, then batch, then shuffle batches.

Partitions data into chunks of size 100*batch_size, sorts examples within each chunk using sort_key, then batch these examples and shuffle the batches.

在桶内排序,然后批处理,然后打乱顺序批处理。

将数据分割成大小为100*batch_size的块,使用sort_key对每个块中的示例进行排序,然后批处理这些示例并打乱顺序批次。
'''
torchtext.data.pool(data, batch_size, key, batch_size_fn=<function <lambda>>, random_shuffler=None, shuffle=False, sort_within_batch=False)

(3) get_tokenizer

torchtext.data.get_tokenizer(tokenizer, language='en')

(4) interleave_keys

'''
Interleave bits from two sort keys to form a joint sort key.

Examples that are similar in both of the provided keys will have similar values for the key defined by this function. Useful for tasks with two text fields like machine translation or natural language inference.


从两个排序键中交错位,形成一个联合排序键。

所提供的两个键中相似的示例将具有此函数定义的键的相似值。
适用于具有两个文本字段的任务,如机器翻译或自然语言推理。
'''
torchtext.data.interleave_keys(a, b)

文章翻译于 torchtext.data — torchtext 0.4.0 documentation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值