不要沉迷大模型的技术与理论，学习大模型的方法——从做一个小应用开始

最新推荐文章于 2024-11-09 15:56:43 发布

爱喝白开水a

最新推荐文章于 2024-11-09 15:56:43 发布

阅读量640

点赞数 25

文章标签：学习深度学习人工智能大模型 LLM 大语言模型大模型应用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/python123456_/article/details/142355733

版权

“ 在应用中学习技术，而不是沉迷于技术本身 ”

不知道大家都是怎么学习大模型技术的，但从个人的经验和公众号的反馈来看，有些人在学习大模型技术时转进了牛角尖，导致很多东西学不明白，事倍功半。

今天就从个人的学习历程出发，来讨论一下关于大模型技术的学习方法。

学习大模型技术的方法

应该跟很多人一样，之所以学习大模型技术是因为大模型技术的爆火，以及大模型技术在未来的发展潜力，更重要的一点是不了解和学习大模型以后可能会找不到工作。

有句话叫，以后被人工智能淘汰的不是农民工，也不是高级白领，是不会学习和使用人工智能的人。

虽然大模型技术的前景并不是很明朗，但这并不妨碍我们学习大模型技术；但应该怎么学习大模型技术，却是一个值得思考的问题。

在刚开始接触人工智能技术的时候，应该像绝大部分人一样，面对人工智能技术领域一大堆专业名词，框架，技术，架构等等；感觉自己无从下手，不论是看书还是看视频，都听得迷迷糊糊，很多地方也听不懂。

在这里插入图片描述

但是，比较好的一点就是刚好这段时间学会了写公众号，把自己对大模型技术的学习，理解以及思考给记录了下来；虽然其中可能存在很多问题，但这并不重要，重要的是自己在写公众号的同时对大模型技术有了更加深刻的认识与理解。

在刚开始写关于人工智能技术的内容时，大家也可以翻到之前的文章看一下，大部分都是一些概念性的东西；反正只要是自己看到的，不懂的东西就写下来，权当是一个个人笔记，记录一下。

但是在写公众号的过程中，慢慢就发现一个问题，那就是很多不明白的东西，写着写着就慢慢明白了。

因为写作的过程是一个重新思考的过程，很多不明白的东西，你虽然也可以照搬的抄下来，但会觉得这样总是怪怪的；因此，你就会主动思考，用自己的话，把自己的理解给下来。

这样，哪怕别人看不懂，但它记录的是你的学习与思考的过程，而在这个过程中，你就会加深对大模型技术的理解。

在前面写的文章中，有很多我自己都不是很理解，有些就是照搬照抄下来的，但现在回头看一下，发现有些东西在不知不觉中就理解了。

因此，再次建议一定要养成写作的习惯，哪怕你写的都是错的；学习是一个输入的过程，写作是一个输出的过程，有输入，就要有输出；否则学习的意义就不存在了。

这也是为什么很多人觉得，读了很多书为什么还是过不好这一生的原因；因为你学了，但并没有用出来。

这也是为什么一些战争时期的高级将领，虽然没有读过书认过字，甚至靠一本三国就敢带兵打仗，而且还胜多败少。

原因就是，他们能够把三国里的知识和现实中的战争问题相结合，然后在不断地实践过程中加深对三国和战争的理解，最后越战越强。

其次，学习是一个循序渐进，不断验证又不断推翻的过程；很多人钻牛角尖的原因就是，想把大模型的技术与理论完全吃透。但这怎么可能呢？

在此之前，作者本人也是钻进大模型技术里无法自拔，整体满脑子想的就是大模型是怎么设计出来的，Transformer架构为什么这么牛逼，自注意力机制的原理是什么？chatGPT是怎么实现的？怎么训练和微调一个大模型，怎么在本地部署大模型等等。

这些东西有用吗？

答案是有用，而且有大用；但对现阶段很多人工智能刚入门的人来说，它们没什么用。因为它们离我们太远，我们够不着，反而徒增烦恼。

在之前的学习过程中，作者也天天想自己本地部署一个大模型，然后训练一个模型；但后来发现，即使本地部署大模型又有什么用？能解决什么问题？除了能够用来吹牛逼之外，还有其它的实际作用吗？

有些人可能会觉得，至少熟悉了大模型是怎么部署的？

但事实是，大模型的本地部署大部分人都是下载一个工具，然后把大模型下载下来就叫会部署了。

但大模型在真正的企业应用中，怎么解决其性能问题，并发问题，输出质量问题；比如说，大模型的分布式部署怎么搞？有哪几种方案，每种方案的优劣是什么？

那些在本地部署大模型的人，有谁能回答上面的问题？

如果能回答上面的问题，还有其它新的问题，比如长文本问题怎么解决，模型幻觉怎么解决，如果需要对大模型进行微调，怎么解决并行计算问题，在并行计算的过程中会潜藏着哪些问题？有哪些注意点？

在这里插入图片描述

更不用说更加细节的，用什么传播算法，损失函数怎么设计，大批量训练数据怎么处理等等。

因此，最好的方式应该是在了解一些大模型的基础理论之后，找一个大模型的技术方向或应用方向，去自己深度地研究一下。

比如说，自己手动打造一个大模型知识库，哪怕这个知识库很简陋，但在做的过程中，肯定会遇到各种各样的问题。

再比如，大模型在AIGC领域的应用，怎么用大模型构造AIGC的应用，其存在哪些问题，需要怎么解决。

比如说，搭建大模型知识库面临着庞大数据的存储与检索问题，大模型的理解能力不足，该怎么解决。再比如在AIGC领域，假如想用大模型做一个视频生成的应用，怎么解决不同场景和视频风格的问题。

比如说，国风类的视频，可爱型视频，二次元视频，美女跳舞视频，走的清纯路线，可爱路线，白月光路线。

大模型能同时满足这些不同的场景与风格化视频的生成吗？生成质量怎么保证？

在这里插入图片描述

这时你就会考虑该怎么解决这个问题，比如说是因为大模型的知识不足，训练效果不好，还是模型设计有问题。

这时再去学习大模型技术的原理，实现，你这时就会有的放矢，而不是纯粹的学习大模型技术理论，然后也不知道自己学了之后能干嘛。

再拿大模型的应用来说，在之前的学习过程中，一直不明白大模型有什么用？难道只能用来回答问题，生成一些图片和视频？而且还不能保证答案的准确性以及生成内容的质量。

而在自己真的开始动手用大模型解决问题的时候，才方向大模型的应用方向有很多。比如前面说的生成视频的例子，怎么生成不同风格的视频；内容生成方向多种多样，明显不是一个大模型就能完全做到的。

就像一个人一样，他不可能同时精通天文地理，物理化学，写作绘画，古董鉴赏等多个领域，大模型也是如此。

而且随着对大模型技术理解的加深，自己慢慢就会发现大模型的一些应用方向，比如说利用大模型的推理能力实现的Agent，来解决不同领域的问题，比如旅行，写作，营销，工业制造等。

再比如，大模型与知识库技术的结合，去实现智能问答，教育培训等；还有在昨天文章中说的，大模型应用于内容合规性校验。

在当前大模型技术发展的初期，这随便拎出一个方向都可以作为一个创业项目；不论是做出一个能高质量生成各种风格视频的大模型，还是结合知识库做一套智能客服。还是打造各个领域内的大模型，都具有广阔的发展前景，以及发展空间。

总之，知识不只是书本上的才叫知识，实践更是一个大的课堂；要把理论与实践相结合，才能让理论去指导实践，让实践去验证理论。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

爱喝白开水a

关注

25
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爱喝白开水a CSDN认证博客专家 CSDN认证企业博客

码龄1年

340: 原创

9699: 周排名

3274: 总排名

37万+: 访问

: 等级

1万+: 积分

4749: 粉丝

7126: 获赞

9: 评论

6119: 收藏

私信

关注

热门文章

最新评论

RAG 实践- Ollama+RagFlow 部署本地知识库
+7-7: 我使用http://host.docker.internal:11434添加模型，会报错102 Fail to access model(qwen2.5).**ERROR**: Server disconnected without sending a response.请问博主知道怎么解决吗？也是docker安装ragflow，liunx本地安装的ollama,服务也是起来的，ollama 2155680 ollama 3u IPv4 106351753 0t0 TCP localhost:11434 (LISTEN)
Transformer-LSTM网络的轴承寿命预测，保姆级教程终于来了！
22上岸: 代码怎么获得啊，博主
Embedding模型部署及效果评测
地狱在人间: 32G的bge-multilingual-gemma2试试吧，这个效果据说最强大
三分钟搭建线上RAG应用，实现定制化的知识库问答
qq_40740724: 你这知识库搭建的截图是百度那边的知识库构建截图吧
【大模型微调】一文掌握7种大模型微调的方法
Owen York: “微调阶段：在训练期间，QLoRA先以4-bit格式加载模型，训练时将数值反量化到bf16进行训练，这样大幅减少了训练所需的显存。例如，33B的LLaMA模型可以在24 GB的显卡上进行训练。” 反量化到bf16会减少训练显存需求吗？

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。