🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎
📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃
🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝
📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】 深度学习【DL】
🖍foreword
✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。
如果你对这个系列感兴趣的话,可以关注订阅哟👋
文章目录
Falcon LLM 是一种新的大型语言模型,它取代了 LLaMA 的桂冠。
我们每周都会看到大型语言模型(LLM)不断涌现,并且有越来越多的聊天机器人可供我们使用。然而,很难弄清楚哪一个是最好的、每一个的进展以及哪一个最有用。
HuggingFace有一个开放的 LLM 排行榜,可以对发布的 LLM 进行跟踪、评估和排名。他们使用独特的框架来测试不同评估任务的生成语言模型。
最近,LLaMA(大型语言模型Meta人工智能)位居排行榜首位,最近被新的预训练LLM Falcon 40B 取代。
关于TII
Falcon LLM由技术创新研究所(TII) 创立和建立,该公司是阿布扎比政府先进技术研究委员会的一部分。政府负责监督整个阿拉伯联合酋长国的技术研究,其中的科学家、研究人员和工程师团队专注于提供变革性技术和科学发现。
Falcon 40B是什么?
Falcon-40B是一个具有 40B 参数的基础 LLM,使用 1 万亿个代币进行训练。Falcon 40B 是仅自回归解码器模型。仅自回归解码器模型意味着模型被训练为在给定先前标记的情况下预测序列中的下一个标记。GPT 模型就是一个很好的例子。
Falcon 的架构已被证明显着优于 GPT-3,仅需要 75% 的训练计算预算,并且只需要 ? 推理时的计算。
大规模数据质量是技术创新学院团队的一个重要关注点,因为我们知道法学硕士对培训数据的质量高度敏感。该团队构建了一个数据管道,可扩展到数万个 CPU 核心以进行快速处理,并能够使用广泛的过滤和重复数据删除从网络中提取高质量的内容。
他们还有另一个较小的版本:Falcon-7B,它有 7B 个参数,在 1,500B 个令牌上进行训练。如果您正在寻找即用型聊天模型,还可以使用Falcon-7B和Falcon-7B-Instruct模型。
Falcon 40B能做什么?
与其他LLM类似,Falcon 40B 可以:
- 生成创意内容
- 解决复杂问题
- 客户服务业务
- 虚拟助理
- 语言翻译
- 情绪分析。
- 减少并自动化“重复性”工作。
- 帮助阿联酋公司提高效率
Falcon 40B 是如何训练的?
为了接受 1 万亿代币的训练,需要 AWS 上的 384 个 GPU,历时两个多月。在RefinedWeb的 1,000B 代币上进行训练,RefinedWeb 是 TII 构建的海量英语网络数据集。
预训练数据包括使用CommonCrawl从网络收集的公共数据。该团队经历了彻底的过滤阶段,以删除机器生成的文本和成人内容以及任何重复数据删除,以生成包含近 5 万亿个令牌的预训练数据集。
RefinedWeb 数据集建立在 CommonCrawl 之上,显示出的模型比在精选数据集上训练的模型具有更好的性能。RefinedWeb 还支持多模式。
准备就绪后,Falcon 就根据 EAI Harness、HELM 和 BigBench 等开源基准进行了验证。
Falcon LLM 是开源的
他们向公众开源了 Falcon LLM,使研究人员和开发人员更容易使用 Falcon 40B 和 7B,因为它基于 Apache License Version 2.0 版本。
法学硕士曾经仅用于研究和商业用途,现在已经开源,以满足全球对人工智能包容性访问的需求。现在,由于阿联酋致力于改变人工智能领域的挑战和边界以及人工智能在未来如何发挥重要作用,因此它现在免收商业使用限制的版税。
Apache 2.0 旨在在人工智能领域培育协作、创新和知识共享的生态系统,确保开源软件的安全性。
如何使用 Falcon-7B 指导LLM
如果您想尝试更简单的 Falcon-40B 版本(更适合聊天机器人风格的通用指令),那么您需要使用 Falcon-7B。
那么让我们开始吧……
如果尚未安装,请安装以下软件包:
!pip install transformers
!pip install einops
!pip install accelerate
!pip install xformers
安装这些软件包后,您可以继续运行为Falcon 7-B Instruct提供的代码:
from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch
model = "tiiuae/falcon-7b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
sequences = pipeline(
"Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:",
max_length=200,
do_sample=True,
top_k=10,
num_return_sequences=1,
eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
print(f"Result: {seq['generated_text']}")
把它包起来
作为目前最好的开源模型,Falcon 摘得了 LLaMA 桂冠,人们惊叹于它强烈优化的架构、具有独特许可证的开源,并且有两种尺寸可供选择:40B 和 7B 参数。