极客时间 AI 大模型微调训练营0期学习总结

最新推荐文章于 2024-09-15 15:29:29 发布

蓝天嘿嘿

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量705

点赞数 6

文章标签：人工智能学习 langchain chatgpt

本文链接：https://blog.csdn.net/danteblack/article/details/136160663

版权

时间还过得真是快，去年年底报名的时候非常的纠结，主要原因是想在AI方面有所提升，但是又觉得微调的学习门槛过高，线性代数这些玩意儿想想都头大，矩阵的算式看着就发晕，不过最后还是一咬牙，把用AI赚到的钱交了学AI的学费。

前两周学习理论，还好，可以盯着huggingface来学习，不清楚的概念直接上去查，也算是搞明白了为啥huggingface现在这么的火，它提供了一系列用于自然语言处理（NLP）、计算机视觉和音频处理的工具和库。它最著名的产品是开源的Transformers库，这是一个广泛使用的自然语言处理工具库，包含了大量预训练模型，如BERT、GPT-2等，用于各种NLP任务，如文本分类、生成文本、问答系统等。就是机器学习领域的“GitHub”。有很多数据集和各种开源模型，而且有很多现成的库比如说 Dataset库可以非常方便的管理各种数据集。

不过也遇到了很多的困难，huggingface在国内不能直接访问，如何下载数据集和相应的模型就成为了一个难题，另外如何通过conda来管理不同的python环境，这些都是以前没有接触过的场景问题，一句话实操8个小时，有7个小时是在解决科学上网的问题，系统环境的问题等等。

在不断深入的学习中也逐渐的认识到应用的AI的几个层面，利用prompts提升效率，通过langchain+rag来实现agent的能力，通过微调来实现垂直领域的知识强化，通过预训练来捏出一个大语言模型。以上几个层面，普通人最多也就能在微调领域试试水了，一块16GB的T4显卡，通过INT4级别的量化也可以微调一些7B左右的模型，在一些垂直领域使用，但这也只是从起步的成本说起，额外的成本比如说用于微调的数据集现在通用的方式通过GPT4进行整理，消耗的token也是不小的开支，如果想商用，实现高并发，还需要一些工程化的技术比如通过k8s落地也不是一两个人能搞定的，普通人想要自己尝试微调，最多也就是一个实验的层面在小范围内使用。预训练就不要想了，一个7B的模型想要进行训练没有128GB的GPU是跑不起来的，一台8卡A100的服务器是预训练的起步机型。

最大的收获就是学习完成后，深刻认识到大模型微调和预训练真是大公司才能烧钱玩起来的东西，到不说前期的投资，很多微调就是个黑盒，微调完成之前没有人能百分之百笃定，调出来之后不是一个傻子，只有微调结果出来后才知道成功与否，发现失败了调整参数重新调，如果再失败再调整参数再重新来，反复执行才有结果，也怪不得大家都说这就是炼丹，成功与否看运气，大公司可以几个团队同时进行，最终选取最成功的模型，时间金钱工程技术团队缺一不可。

不过好的一点就是，学习微调之后虽然未必有用武之地，但是你对大模型的原理会有非常深入的了解，大模型能做什么不能做什么，大模型现阶段能力的边界在哪里都会非常的清楚，也便于寻找一些产品的方向和投资的方向。

最后，我要花时间去补补线性代数和机器学习的基础知识。