数据集处理库:Hugging Face Datasets
from datasets import load_dataset
dataset=load_dataset("hunggingface数据集名字")
Datasets.load_dataset实现原理
构造DatasetBuilder 类的主要配置BuilderConfig
若果想向数据集添加额外的属性,例如标签。主要有两种方法来填充BuilderConfig类或其子类的属性:
- 在datasets DatasetBuilder.BUILDER_CONFIGS()属性中提供预定义的BuilderConfig类实例;
- 当调用load_datasets()时,各参数默认值会直接读取BuilderConfig类的预定义值,否则会被覆盖;
实际构造数据集的类DatasetsBuilder
数据预处理策略
- 填充(padding)
- 截断(Truncation)
Transformers微调训练模块Trainer
trainer=Trainer(
model=model, #模型加载
args=training_args, #参数加载
train_dataset=small_train_dataset, #训练数据加载
eval_dataset=small_eval_dataset, #验证数据加载
compute_metrics=compute_metrics, #评估比较加载
)
trainer.train()