llama3.1 原模型与中文微调模型效果对比分析

AI-椰子不椰

于 2024-08-13 11:37:53 发布

阅读量445

点赞数 4

文章标签：人工智能开源 llama 语言模型大模型 AI大模型

本文链接：https://blog.csdn.net/2401_85343303/article/details/141159969

版权

前文

llama3.1 强势来袭，我也是第一时间就下载使用了，下面给各位领导汇报一下最新的成果和使用体验感受。下面是官方的性能图，请欣赏开源的强大力量，闭源估计在瑟瑟发抖。

在这里插入图片描述

准备

因为我是第一天就直接使用，在 [huggingface llama3.1]上面的模型还没法直接使用，需要提交申请，只有通过之后才能使用，我这里已经过去两天了还没有任何消息，果断放弃了。

现在最方便的是使用 Ollama 框架平台来拉取 llama 3.1 的模型，分别有 8B 、70B、405B ，我这里的硬件只能支撑 8B 。首先你要先保证安装好 Ollama ，如果不会可以看我这个[教程]，包教包会。然后在命令行使用下面的命令拉取模型。

ollama run llama3.1

如果拉取成功，我们可以通过下面的命令看到本地的模型列表。

ollama list

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后我们通过命令 ollama ps 查看模型是否已经运行，如果没有运行起来我们使用下面的代码运行模型。

ollama run llama3.1

到此为止原始的 llama3.1-8b 的模型已经运行起来了，显存占 7G 左右，正常情况命令行就可以进行互动交流，让我们看下效果吧。

llama3.1-8B 效果展示

回答的速度相当快，简单的互动都可以完成。

在这里插入图片描述

询问有难度的问题也可以快速响应，效果符合预期。

在这里插入图片描述

llama3.1-8B 缺点

在和业内人士交流的时候发现这个模型对于中文其实还不友好，有时候会出现乱答甚至不答的情况，所以为了能更好支持中文任务，我找到了经过中文微调数据的模型 [Llama-3.1-8B 中文 DPO 模型]开始部署使用。

准备 Llama-3.1-8B 中文 DPO 模型

其实就是直接去[官方页面把所有文件都下载下来就可以了。不得不感叹开源的力量，真的是太大了，时隔一天就能出来微调版本，我相信后面应该还能继续出来效果更好适合中文的模型。

体验 Llama-3.1-8B 中文 DPO 模型

因为之前我自己搭了一个开源的大模型聊天界面，所以我直接就使用自己的这个工具进行聊天，如果想学习的同学可以看我这篇[教程]。我将自己下载好的模型放到 text-generation-webui\models 目录之下。如果你已经安装好，那么使用下面的命令启动即可：

python .\server.py

启动成功之后，直接访问下面的页面：

http://127.0.0.1:7860

接下来我们还要做一下简单的配置，就是下图所示的几个步骤：

切换到 Model 页面
选择我们自己的模型 llama3.1-8B-Chinese-Instruct-DPO
点击 Load 按钮加载模型
如果显示 Successfully 就说明成功了，成功跑起来大约需要 16G 的显存。

在这里插入图片描述

然后切换到 Chat 页面就可以进行对话了，我直接问的就是比较有难度的业务问题，看起来回答的也比较符合预期。

在这里插入图片描述

总结

开源的力量是越来越强大，Meta 这条路子总算是走对了，未来 LLAMA 成为大模型一个指日可待，干翻闭源模型也指日可待。
其实不管怎么说 8B 的模型大小也就是能随便玩玩，想正式进入商用阶段还得使用 70B 、甚至 405B ，如果真的有一天 8B 的模型能够商用，也就是小模型能在消费级显卡上面支持商用，那真的是人工智能的到来之日。
就在发文的功夫，最强开源的位置易主了，已经是 Mistral Large 2 ，LLAMA3.1 的霸主之位只坐了一天，再次感叹开源力量，太卷了。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AI-椰子不椰

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
llama3.1 原模型与中文微调模型效果对比分析

开源的力量是越来越强大，Meta这条路子总算是走对了，未来LLAMA成为大模型一个指日可待，干翻闭源模型也指日可待。其实不管怎么说8B的模型大小也就是能随便玩玩，想正式进入商用阶段还得使用70B、甚至405B，如果真的有一天8B的模型能够商用，也就是小模型能在消费级显卡上面支持商用，那真的是人工智能的到来之日。就在发文的功夫，最强开源的位置易主了，已经是LLAMA3.1的霸主之位只坐了一天，再次感叹开源力量，太卷了。
复制链接

扫一扫