如何使用hugging face的模型库?

AI小白龙*

已于 2024-05-05 10:36:59 修改

阅读量990

点赞数 6

文章标签： langchain pdf 深度学习人工智能大模型 Hugging face 大语言模型

于 2024-04-16 15:13:52 首次发布

本文链接：https://blog.csdn.net/2301_81940605/article/details/137826341

版权

Hugging Face 是一个流行的自然语言处理 (NLP) 模型库和社区，提供了大量预训练模型、工具和资源，使得 NLP 的开发者和研究人员能够快速高效地构建和应用各种文本相关应用。在这里，我将向您介绍如何在 1 天内快速熟悉 Hugging Face 的基本功能，并展示一些简单实用的例子。

🚀1/3 如何快速使用

安装 Hugging Face
- 在命令行中输入 pip install transformers 就可以安装 Hugging Face 的 transformers 库。
- 如果还没有安装 PyTorch 或 TensorFlow，也需要先安装它们。
浏览🤗 Hugging Face 的模型库
- 找到适合你项目需求的模型。
- 可以通过搜索或筛选来缩小范围。
- 点击模型名称进入模型主页，可以查看模型的详细信息、用法示例、源代码等。
下载并使用模型
- 使用 from transformers import MODEL_NAME 导入模型。
- 实例化模型：model = MODEL_NAME.from_pretrained('MODEL_NAME')。其中 MODEL_NAME 是模型的名称或路径。
- 准备输入数据，转换为模型支持的格式。（如 tokenizer 后的文本、图像等）
- 调用模型并获得输出：outputs = model(inputs)。其中 inputs 是模型的输入数据。
保存和加载模型
- 使用 model.save_pretrained('PATH') 将模型保存到指定路径。
- 使用 MODEL_NAME.from_pretrained('PATH') 来加载模型。

🎨2/3 展示效果

文本分类

python
from transformers import pipeline, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = pipeline("text-classification", model="distilbert-base-uncased-finetuned-sst-2-english")

text = "This movie is really good!"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

print(f"Input text: {text}")
print(f"Predicted label: {outputs[0]['label']}, score: {outputs[0]['score']:.2f}")

输出结果：

yaml
Input text: This movie is really good!
Predicted label: POSITIVE, score: 0.99

命名实体识别

python
from transformers import pipeline, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")
model = pipeline("ner", model="dslim/bert-base-NER")

text = "Hugging Face is a startup based in New York City"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

for entity in outputs:
    print(f"Entity: {entity['word']}, Type: {entity['entity']}, Score: {entity['score']:.2f}")

输出结果：

yaml
Entity: New, Type: B-LOC, Score: 0.24
Entity: York, Type: I-LOC, Score: 0.28
Entity: City, Type: I-LOC, Score: 0.25

💻3/3 更高阶的用法

Fine-tuning 模型

在 🤗Hugging Face 中，我们可以使用预训练模型进行 fine-tuning，以适应特定任务或领域的需求。以下是一个简单的示例：

python
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='./results',
    num_train_epochs=1,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=64,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir='./logs',
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

trainer.train()

自定义模型和 Tokenizer: 如果 Hugging Face 提供的现成模型无法满足需求，我们可以通过继承 PreTrainedModel 和 PreTrainedTokenizer 类来创建自己的模型和 Tokenizer。
使用Hugging Face Hub: Hugging Face Hub 是一个在线平台，可以轻松共享、发现和使用各种 NLP 模型。我们可以使用 upload() 函数将自己的模型上传到 Hub 上，并使用 from_pretrained() 函数来加载其他人分享的模型。

📚总结

通过本文，我们了解了如何快速使用 🤗Hugging Face 模型库，并展示了一些简单的 NLP 任务。此外，我们还介绍了更高阶的用法，例如 Fine-tune 模型、自定义模型和 Tokenizer，以及使用 Hugging Face Hub。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓

在这里插入图片描述