近日,阿里云计算巢发布了一款名为“流萤Firefly”的微调数据集,该数据服务以其独特的优势和卓越的品质,在中文自然语言处理(NLP)领域引起了广泛关注。这款精心打造的数据集,凭借其丰富的内容、多样的任务类型以及严格的质量控制,为各类中文NLP模型提供了强大的训练支撑。
流萤Firefly微调数据集汇集了23个广泛应用于中文NLP任务的常见数据子集,总计数据量高达115万条。为了确保每一条数据都能精准反映实际应用场景并保持高质量标准,阿里云团队采取了人工书写指令模板的方式进行构建,使得数据内容不仅覆盖全面,且极具多样性。
从数据分布特征来看,训练数据集的token长度设计科学合理,如下图所示(附图2),大部分数据的长度控制在600以内,这一特点有效保证了模型训练时的计算效率及泛化能力。
具体到数据示例层面,每一条数据都包含了详尽的任务类型定义、输入文本和目标输出结果。例如,针对古文翻译任务,数据格式如下:
{
"kind": "ClassicalChinese",
"input": "将下面句子翻译成现代文:\n石中央又生一树,高百余尺,条干偃阴为五色,翠叶如盘,花径尺余,色深碧,蕊深红,异香成烟,著物霏霏。",
"target": "大石的中央长着一棵树,一百多尺高,枝干是彩色的,树叶有盘子那样大,花的直径有一尺宽,花瓣深蓝色,花中飘出奇异的香气笼罩着周围,如烟似雾。"
}
此例生动展示了如何通过精确的