0 准备部分
0.1 创建虚拟数据
import numpy as np
from datasets import Dataset
seq_len, dataset_size = 512, 512
dummy_data = {
"input_ids": np.random.randint(100, 30000, (dataset_size, seq_len)),
"labels": np.random.randint(0, 1, (dataset_size)),
}
dummy_data
'''
使用 np.random.randint 函数生成一个形状为 (dataset_size, seq_len),即 512x512 的数组。
数组中的每个元素是一个随机整数,范围从 100 到 30000。
使用 np.random.randint 函数生成一个形状为 (dataset_size,) 的数组,其中的元素是 0 或 1
表示每个样本的标签
'''
'''
{'input_ids': array([[11687, 1246, 6661, ..., 20173, 3772, 29152],
[ 720, 25945, 11963, ..., 11675, 27842, 3553],
[22100, 26587, 19452, ..., 1836, 24395, 22849],
...,
[11610, 24425, 1026, ..., 6237, 28503, 2775],
[10266, 22622, 14079, ..., 24491, 26029, 17796],
[11500, 7688, 13780, ..., 4839, 13967, 18493]]),
'labels': array([0, 0, 0, 0,