
大模型数据准备/预处理
文章平均质量分 90
大模型数据准备/预处理
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
[代码大模型之数据集]xCodeEval
这项工作的一部分是由 Muhammad Abdullah Matin Khan Zarzis 作为伊斯兰科技大学计算机科学与应用理学硕士学位的要求而提交的。为了避免数据冗余,我们没有将这些数据包含在相关任务中,而是添加了一个唯一的 ID。示例组成,涵盖多达 17 种具有执行级并行性的编程语言。如果您在下载数据时遇到长时间延迟,请使用 Huggingface 流模式。我们还提出了一种新颖的数据分割和数据选择模式,用于基于。,并采用基于执行的评估。按照以下示例加载各个示例的数据集。的示例代码和数据链接。原创 2024-05-14 22:22:02 · 1261 阅读 · 0 评论 -
垂域LLM训练经验之谈
本文将按以下几个部分进行叙述:•全参 SFT•Lora SFT•Lora 继续预训练•Llama pro 预训练+ SFT•预训练数据:由SFT数据的Query 与 Answer 的拼接•SFT数据:由GPT4根据垂域文档抽取问答对+人工挑选而来,大概20000条,其中包括公司的介绍•自我认知数据:大概200条,从公开的自我认知数据整理而来•通用数据:匠数科技大模型sft数据集[1]显卡训练框架基座模型。原创 2024-07-20 13:53:46 · 1044 阅读 · 0 评论 -
大模型常用的预训练数据集
此外,该数据集针对不同需求,发布了多个子版本:en(英文数据,806G),en.noclean(未清洗的原始数据,6T),realnewslike(仅包含 Real News 涉及的领域的内容,36G),webtextlike(仅包含来自 Open WebText 中URLs 的内容,17G)和 multilingual (多语言数据,38T)。值得注意的是,该数据集内部充斥着大量的噪声和低质量数据,在使用前必须进行有效的数据清洗,以确保数据质量和准确性,常用的自动清洗工具有 CCNet 等。原创 2024-07-18 15:53:18 · 3935 阅读 · 0 评论 -
思路打开!腾讯造了10亿个角色,驱动数据合成!7B模型效果打爆了
本文提出了一种新颖的角色驱动数据合成方法,并推出了Persona Hub,一个包含10亿个角色的集合,展示了其在多种场景下促进合成数据创建的潜力,可能为发掘LLM的超级智能提供一种新途径。所有示例都表明,只要能够清晰描述要创建的逻辑推理问题的要求,就可以使用多种角色来引导LLM生成不仅满足要求,而且与角色高度相关的多样化逻辑推理问题,连“弱智吧”风格的问题也能轻松应对。如下图所示,为不同角色需要的工具定义接口,然后轻松转换为代码,(例如,出租车司机需要查看交通状况),从而极大地扩展了LLM提供的服务范围。原创 2024-07-09 00:37:57 · 946 阅读 · 0 评论 -
智源研究院开源阿拉伯语通用大模型ALM,发布最大阿拉伯语数据集ArabicText
ALM: ,它是最美丽和美妙的旅游胜地之一,大自然爱好者们去那里欣赏美丽的景色迷人的海滩,因为该地区包括许多适合的地方 因为它是一个疗养胜地,所以它是许多疗养胜地和度假村的所在地,您可以在其中放松身心,享受清新的空气和温暖的海水,因为它包含许多您可以参观和享受的旅游景点,但在享受它们之前,您必须了解有关它的所有必要信息,这对每个游客来说都是必要的,这是这些信息:*沙姆沙伊赫被认为是其中之一埃及最重要和最美丽的旅游区,因为它的特点是平静和过度舒适,因为城市中有许多酒店和度假村。ALM:也是通往地中海的门户。原创 2024-06-03 15:16:45 · 1297 阅读 · 0 评论 -
240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开
在公开可用的IT数据集上进行指令微调后,研究人员的模型保持了大部分基准性能,并在AlpacaEval2.0 LC中获得了16.6的胜率,超过了Gemma-Instruct(10.4),同时接近Mistral-v0.2-7B(17.1)和Llama3-Instruct(22.9)的强劲表现。研究人员根据参数规模限制初始池的大小,以模拟现实世界的约束。在表9中,展示了新模型优于所有在公开训练集上训练的7B模型,并接近于训练token更多的闭源模型,如Llama-8B、Mistral-7B和Gemma-7B。原创 2024-06-25 09:47:33 · 738 阅读 · 0 评论 -
【LLM数据篇】预训练数据集+指令生成sft数据集
参考:https://www.zhihu.com/question/306887936汇总:https://blog.csdn.net/PolarisRisingWar/article/details/122987556。原创 2024-07-18 19:57:06 · 1573 阅读 · 0 评论 -
Yuan2.0 数据预处理
由于源2.0 是在Megatron 框架下训练与微调的,因此在训练之前需要将文本语料转换为token id并存储在 .bin文件中。我们提供的脚本可以高效地将文本转换为 tokenid,是专门为预处理中文语料而设计的。该脚本可在"tools "目录下找到。参数名称参数描述--input存储训练数据集的路径,数据集应存储为 .txt 文件。注意:即使仅有一个.txt文件需要处理,此处输入的也应该是数据存储路径(文件夹),不是.txt的路径。--data-idx此参数设置训。原创 2024-07-17 17:32:45 · 284 阅读 · 0 评论 -
ArabicText 2022,数据量最大的开源阿拉伯语预训练数据集ArabicText2022
目前全球数据量最大的开源阿拉伯语预训练数据集ArabicText2022,可用于阿拉伯语语言模型的训练大模型智源合作阿拉伯语自然语言处理数据集介绍数据集文件北京智源人工智能研究院认知模型与数据研究团队与埃及阿拉伯科技与海运学院(AASTMT)、亚历山大图书馆(BA)、阿布扎比阿联酋起源人工智能研究院(IIAI)等阿拉伯语国家和地区优势高校院所和科研机构合作,构建了目前全球数据量最大的开源阿拉伯语预训练数据集ArabicText 2022,可用于阿拉伯语语言模型的训练。原创 2024-06-03 14:44:31 · 1499 阅读 · 0 评论 -
Transformer动画讲解 - 数据处理的四个阶段
Transformer动画讲解1。原创 AllenTang。原创 2024-05-28 09:31:16 · 722 阅读 · 0 评论 -
[论文翻译]SFT的数据构成如何影响LLM的能力
较大的模型在处理相同数据量时,通常能够展现出更好的性能,这表明模型规模是提升性能的一个重要因素。过程中,不同任务(数学推理、代码生成、通用人类对齐)数据构成对训练产生的影响。,性能提升趋于平缓,表明可能存在一个性能饱和点。保留通用能力,但可能导致先前学习的专业能力。专业数据的通用数据上进行第二阶段的SFT。2024年06月16日 13:08。导致专业能力受损,尤其是通用能力。,影响模型在特定任务上的表现。可以相互促进,提高模型性能。,而数据的组成比例影响较小。大语言模型在监督式微调。在数据量有限的情况下,原创 2024-07-07 17:10:44 · 1049 阅读 · 0 评论 -
[原名:华驼(HuaTuo)]: 基于中文医学知识的大语言模型指令微调 github项目说明+数据
对于模型输出的任何内容,本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。推理内容如存在重复生成或部分错误内容属于llama-based模型的偶发现象,与llama模型的中文能力、训练数据规模以及超参设置均有一定的关系,请尝试基于活字的新模型。围绕疾病、药物、检查指标等构建,字段包括并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗等。中我们提供了其中的1k条训练样例。,Alpaca是羊驼,受他们名字的启发以及华佗的谐音梗,我们将我们的模型起名为华驼。原创 2024-07-10 09:58:21 · 1103 阅读 · 0 评论 -
谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途
最新方法依赖3个关键资源的利用:一个语言生成模型(g1),一个文本到图像的生成模型(g2),以及一个经过整理的视觉概念列表(c)。传统的自监督方法(如Sim-CLR)会将这些图像视为不同的类,不同图像的嵌入会被分开,而不会明确考虑图像之间的共享语义。从现成的生成模型中采样的合成数据,是否是一条通往大规模策划数据集的可行之路,从而训练出最先进的视觉表征?只需对相同的描述设定条件,并使用不同的噪声输入,文本到图像的扩散模型就能生成与相同描述相匹配的不同图像。然而,真实数据的收集却有不少的困难。原创 2024-04-15 13:49:08 · 291 阅读 · 0 评论