关于Hugging face的那些事

木子不多余

已于 2024-11-27 18:02:56 修改

阅读量985

点赞数 5

分类专栏：学习日志文章标签：学习笔记

于 2024-11-12 16:19:35 首次发布

本文链接：https://blog.csdn.net/qq_55728814/article/details/143429092

版权

学习日志专栏收录该内容

4 篇文章

订阅专栏

文章目录

Hugging face 是什么
Hugface 怎么跑

Hugging face 是什么

Hugging Face 是一个专注于自然语言处理（NLP）和人工智能（AI）的开源社区和平台。它提供了多个工具和库，最著名的是 Transformers 库，里面包含了许多预训练的模型，如 BERT、GPT、T5 等，可以用于文本生成、分类、翻译等多种任务。

此外，Hugging Face 还提供了 Model Hub，用户可以分享和下载各种模型，以及 Datasets Hub，用于管理和共享数据集。Hugging Face 还推动了对大语言模型的研究和应用，致力于使 AI 技术更易于访问和使用。

Hugface 怎么跑

大模型评估指标

这部分参考这个链接，这个，还有这个

要进行大模型评估，首先需要查看开源大模型的官网，看看开源大模型给出了哪些评估指标数据。一般可以在github官网上看到用了多个数据集对此大模型进行了评估，比如下面这个图。
在这里插入图片描述

可能是把数据集当作评估指标了？
来看看评估指标含义。

在这里插入图片描述

数据集可以看作一个评估基准，去评估模型的某些能力，如推理能力、数学能力、代码生成能力等。

从源代码实现层面浅析如何通过python脚本调用LLM生成这些指标

详细可以看这篇博客，讲的很详细 https://blog.csdn.net/qiaotl/article/details/135013824
在这里插入图片描述

用MT-bench评估大模型

上面的数据集都找到了一种方式来评估LLM生成的内容是否正确，但是如果是针对开放性问题，就无法评估LLM的能力。比如让LLM写一篇优美的作文，写一封措辞友好的email等。这类问题，无法通过选择题来做标准数据集，在实际应用中，很多下游任务往往是这种更贴近人类的开放性问题任务，他不会是做一个选择题或者数学题。对于这类任务，MT-Bench评估方法就是解决该类问题的。
MT-Bench是一个专门用于评估大模型能力的测试框架，它涵盖了写作、角色扮演、推理、数学、编码、人文、提取以及STEM（科学、技术、工程、数学）等8个不同领域的问题。这些问题旨在全面考察大模型在各个方面的表现。
MT-Bench评估方法采用的数据集包含了多个类型的问题，每个问题下都有相应的prompt和reference（标准答案）。这些数据集的设计旨在模拟真实世界中的场景，以检验大模型在实际应用中的能力。具体来说，MT-Bench中的数据集不仅要求大模型能够准确理解问题并给出合理答案，还要求其能够处理复杂情境下的多轮对话。
在这里插入图片描述