1、Llama3 中文化数据集
简介:Llama3 中文化数据集是为了提高Llama3模型在中文语境下的表现而专门设计和准备的数据集。数据集被处理成firefly格式,这意味着它们可以直接用于firefly框架的训练过程。数据集包含了清洗处理后的合并文件,如sft_zh_with_all.jsonl,它包含了约169万条过滤后的问答数据。提供了多种下载方法,包括使用SDK和GIT克隆。SDK方法允许用户通过几行代码快速下载所需的数据集,而GIT方法则适用于希望直接从源代码仓库克隆数据集的用户。
下载链接:https://github.com/CrazyBoyM/llama3-Chinese-chat
2、中文语音识别Aishell-1学术数据集
简介:希尔贝壳中文普通话开源语音数据库AISHELL-ASR0009-OS1录音时长178小时,是希尔贝壳中文普通话语音数据库AISHELL-ASR0009的一部分。AISHELL-ASR0009录音文本涉及智能家居、无人驾驶、工业生产等11个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。高保真麦克风录制的音频降采样为16kH