Facebo推出的LLaMA模型
简介:
LLaMA(Lager Language Model From Meta),这是一个从7B到65B参数的基础语言模型的集合。它在数万亿的文本tokens上训练的模型,并表明在不求助于专有和不可访问的数据集,而仅使用公开的数据集来训练最先进的模型是可能的。特别是,LLaMA-13B在大多数基准测试上优于GPT-3(175B),而且LLaMA-65B与最好的型号钦奇利亚-70B和PaLM-540B具有竞争力。
LLaMA模型的目标是用一个较小的模型在更大数据集上进行更长时间的训练,以此来达到相同或更高精度的模型。因为小模型的推理成本更低,所以其部署时所需要的资源条件也更加便宜,这使得不具有高硬件资源的个人或机构也能研究LLMs。
数据集:
该模型使用以下数据源进行训练:CCNet [67%],C4 [15%],GitHub [4.5%],维斯百科 [4.5%],图书 [4.5%],ArXiv[2.5%],Stack Exchange[2%]。维基百科和书籍域包括以下语言的数据:保加利亚文,加泰罗尼亚文,捷克文,丹麦文,德文,英文,西班牙文,法文,克罗地亚文,匈牙利文,意大利文,荷兰文,波兰文,葡萄牙文,罗马尼亚文,俄文,斯洛文尼亚文,塞尔维亚文,瑞典文,乌克兰文。有关训练集和相应预处理的更多详细信息,请参阅论文。
模型的超参数设置:
模型用途: