- 博客(143)
- 收藏
- 关注
原创 Kali Linux入门教程(非常详细)从零基础入门到精通,看完这一篇就够了。
作为一名从事渗透测试的人员,不懂Kali Linux的话,就out了。它预装了数百种享誉盛名的渗透工具,使你可以更轻松地测试、破解以及进行与数字取证相关的任何其他工作。今天给大家分享一套,包括,内容全面丰富,特别适合渗透测试初学者、想入行安全的朋友学习参考,建议大家人手一份。
2024-10-15 09:36:05
857
原创 Kali Linux入门教程(非常详细)从零基础入门到精通,看完这一篇就够了。
作为一名从事渗透测试的人员,不懂Kali Linux的话,就out了。它预装了数百种享誉盛名的渗透工具,使你可以更轻松地测试、破解以及进行与数字取证相关的任何其他工作。今天给大家分享一套,包括,内容全面丰富,特别适合渗透测试初学者、想入行安全的朋友学习参考,建议大家人手一份。
2024-10-14 16:11:37
911
原创 如何成为一名网络安全工程师?(非常详细)零基础入门到精通,收藏这一篇就够了
网络安全工程师是公司聘用来保护自己公司数据的人。他们会通过各种技术来对公司的数据进行保护,例如:寻找公司数据存放的弱点,监控公司系统或网络中的缺陷等。然后他们会处理他们发现的问题,修复和加强公司信息网络中可能会被攻击的地方。
2024-10-14 16:09:33
758
原创 大模型处理长上下文方法一览,零基础入门到精通,收藏这篇就够了~
2023年中开始,各大LLM厂商开始关注到长上下文的问题。2023年5月,Claude把长度支持到100k tokens;6、7月的时候,ChatGPT3.5也已经支持16k,而ChatGLM2-B最大长度已经可以到32k。(插一句,ChatGLM系列做得一直很不错,从基础模型、长窗口、工具调用、Agent都一直保持在比较前沿的水平,个人最近用ChatGLM3、ChatGLM4体验还是很不错的)差不多同时间还有LM-SYS的LongChat,MosaicLM的MPT也支持16k以及更长的上下文。
2024-10-11 16:44:05
2783
原创 【AI大模型】应用开发基础,学到就是赚到!零基础入门到精通,看完这篇就足够了~
1、了解大模型能做什么2、整体了解大模型应用开发技术栈3、浅尝OpenAI API的调用AI全栈工程师:懂AI、懂编程、懂业务的超级个体,会是AGI(Artificial General Intelligence 通用人工智能)时代最重要的人。
2024-10-10 18:23:07
1338
原创 【AI大模型】羊驼大模型详解_零基础入门到精通,看完这篇就足够了~
可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。原生的基础LLaMa用的语料是通用语料。微调的本质并不是能把模型效果变好,微调的目的是让模型更适应于我们的数据。作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。国内很多大模型都是学Alpaca模型的玩法,套壳LLaMA模型低成本训练出自己的模型。
2024-10-06 14:01:38
1342
原创 大模型处理长上下文方法一览,零基础入门到精通,收藏这篇就够了~
2023年中开始,各大LLM厂商开始关注到长上下文的问题。2023年5月,Claude把长度支持到100k tokens;6、7月的时候,ChatGPT3.5也已经支持16k,而ChatGLM2-B最大长度已经可以到32k。(插一句,ChatGLM系列做得一直很不错,从基础模型、长窗口、工具调用、Agent都一直保持在比较前沿的水平,个人最近用ChatGLM3、ChatGLM4体验还是很不错的)差不多同时间还有LM-SYS的LongChat,MosaicLM的MPT也支持16k以及更长的上下文。
2024-10-06 13:59:57
1751
原创 大语言模型的微调方法_大语言模型六种微调方法,零基础入门到精通,收藏这一篇就够了
自2018年BERT发布以来,“预训练+微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练,本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力,即使提供了预训练的基座模型,一般的研究机构也很难对其进行全量微调(即对所有参数进行微调)。为了应对这个问题,相关学者提出了PEFT(Parameter-Efficient Fine-Tuning,高效参数微调)技术,本文将总结并介绍几种常见的PEFT技术。
2024-10-05 09:30:00
1256
原创 2024年学习AGI大模型到底有多重要?零基础入门到精通,收藏这一篇就够了
AGI大模型的重要性不仅体现在其技术本身,更体现在其对我们生活的深远影响。它将改变我们的工作方式,提升我们的生活质量,推动社会的发展。因此,学习AGI大模型,了解其背后的原理和应用,对于我们来说至关重要。在2024年,AGI大模型将成为科技发展的关键力量。它将引领我们进入一个全新的智能时代,为我们带来前所未有的便利和机遇。因此,让我们抓住这个机遇,学习AGI大模型,掌握未来的科技力量,为自己的生活增添更多的可能性。那么,我们该如何学习大模型?作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。
2024-10-04 13:30:00
591
原创 【劲爆消息】GLM4 开源了!!!人工智能大模型又一大进步,零基础入门到精通,收藏这一篇就够了
在人工智能领域,开源项目总是能够激发社区的创新活力。今天,我们要分享一个令人震撼的消息:智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本——GLM-4-9B,现已全面开源!GLM-4-9B 不仅仅是一个模型,它是智谱 AI 对深度学习和自然语言处理能力的一次全新探索。在语义理解、数学推理、代码执行等多个领域,GLM-4-9B 展现出了超越 Llama-3-8B 的卓越性能。
2024-10-03 14:45:00
435
原创 【AI大模型】羊驼大模型详解_大模型 羊驼,零基础入门到精通,收藏这一篇就够了
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;国内很多大模型都是学Alpaca模型的玩法,套壳LLaMA模型低成本训练出自己的模型。
2024-10-02 09:45:00
2025
原创 如何高效应用大模型(非常详细)零基础入门到精通,收藏这一篇就够了_
当年BERT横空出世,其强大的自然语言处理能力给大家带来震撼的同时也让大家发现该模型训练成本较高,难以基于该模型架构应用在新的领域。另一个是尽管ChatGPT可以更好地理解人类意图,回答人类的问题,但是不同的提问也会影响模型的输出,那么如何合理的提问获得更好的结果也变得重要。大模型掌握丰富的知识:世界知识、常识、逻辑推理,只需要少量的提示或者微调,就能激发模型完成指定的任务。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。
2024-10-01 13:45:00
628
原创 如何高效应用大模型(非常详细)零基础入门到精通,收藏这一篇就够了_
当年BERT横空出世,其强大的自然语言处理能力给大家带来震撼的同时也让大家发现该模型训练成本较高,难以基于该模型架构应用在新的领域。另一个是尽管ChatGPT可以更好地理解人类意图,回答人类的问题,但是不同的提问也会影响模型的输出,那么如何合理的提问获得更好的结果也变得重要。大模型掌握丰富的知识:世界知识、常识、逻辑推理,只需要少量的提示或者微调,就能激发模型完成指定的任务。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。
2024-09-30 15:51:00
492
原创 手把手教你用PyTorch从零训练自己的大模型(非常详细)零基础入门到精通,收藏这一篇就够了
长按关注《AI科技论谈》LLM是如今大多数AI聊天机器人的核心基础,例如ChatGPT、Gemini、MetaAI、Mistral AI等。这些LLM背后的核心是Transformer架构。本文介绍如何一步步使用PyTorch从零开始构建和训练一个大型语言模型(LLM)。该模型以Transformer架构为基础,实现英文到马来语的翻译功能,同时也适用于其他语言翻译任务。
2024-09-28 11:51:13
2380
1
原创 大模型时代的 AI 产品经理何去何从?(非常详细)零基础入门到精通,收藏这一篇就够了_
每天 LLM 相关的资讯都让人过载。作为 AI 产品经理,你是更兴奋呢,还是更担忧呢?整理了一下个人近期的思考,欢迎感兴趣的朋友一起交流。不管答案如何,相信我们都不应置身事外。1关于大模型我非常认同的一种说法是:大模型本质上是压缩、存储继而理解知识的一种方式。其中储藏的海量知识,可以通过 Prompt 被轻松提取出来,用于查询、生成甚至复杂推理,具备很强的泛化能力。为什么说这是本质呢?因为这为我们带来了把 NLP(自然语言处理)技术变成通用能力方案的可能性。
2024-09-28 11:49:47
832
原创 如何高效应用大模型(非常详细)零基础入门到精通,收藏这一篇就够了_
当年BERT横空出世,其强大的自然语言处理能力给大家带来震撼的同时也让大家发现该模型训练成本较高,难以基于该模型架构应用在新的领域。另一个是尽管ChatGPT可以更好地理解人类意图,回答人类的问题,但是不同的提问也会影响模型的输出,那么如何合理的提问获得更好的结果也变得重要。大模型掌握丰富的知识:世界知识、常识、逻辑推理,只需要少量的提示或者微调,就能激发模型完成指定的任务。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。
2024-09-28 11:48:48
404
原创 大模型LLM学习路线图2024年最新版!全面掌握学习路径,非常详细,零基础想学大模型收藏这一篇就够了
ChatGPT的出现在全球掀起了AI大模型的浪潮,2023年可以被称为AI元年,AI大模型以一种野蛮的方式,闯入你我的生活之中。从问答对话到辅助编程,从图画解析到自主创作,AI所展现出来的能力,超出了多数人的预料,让不少人惊呼:“未来是属于AI的”。AI大模型——成为互联网从业者必备技能。
2024-09-25 16:17:44
706
原创 CTF学习路线(非常详细)零基础入门到精通,收藏这一篇就够了
学习CTF需要时间和精力,但是它也是一个非常有意思的过程。在你学习的过程中,需要注重实战练习,并且参加CTF竞赛可以帮助你将所学的知识应用到实际情况中。希望以上的学习规划和路线可以帮助你从零开始学习CTF。
2024-09-25 16:17:01
978
原创 从零开始手把手带你训练LLM保姆级教程,草履虫都能学会!零基础看完这篇就足够了~
ChatGPT面世以来,各种大模型相继出现。那么大模型到底是如何训练的呢,在这篇文章中,我们将尽可能详细地梳理一个完整的 LLM 训练流程,包括模型预训练(Pretrain)、Tokenizer 训练、指令微调(Instruction Tuning)等环节。
2024-09-24 09:55:29
1157
原创 大模型LLM学习路线图2024年最新版!全面掌握学习路径,非常详细,零基础想学大模型收藏这一篇就够了
ChatGPT的出现在全球掀起了AI大模型的浪潮,2023年可以被称为AI元年,AI大模型以一种野蛮的方式,闯入你我的生活之中。从问答对话到辅助编程,从图画解析到自主创作,AI所展现出来的能力,超出了多数人的预料,让不少人惊呼:“未来是属于AI的”。AI大模型——成为互联网从业者必备技能。
2024-09-24 09:54:58
1013
原创 什么是大模型?一文读懂大模型的基本概念_看完这篇就足够了~
大模型是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。
2024-09-23 18:14:00
1455
原创 想转行AI大模型开发但不知如何下手?拥有他让你抢先一步,从零基础入门到精通,看完这一篇就够了-
Hugging Face是现在最大的AI开源社区,里面提供了很多的预训练模型,是一个模型库,很多人会把自己训练好的模型上传上去,大家可以免费下载使用。下载下来之后,我们就可以在此基础之上,进行微调或者推理,不用从0去训练一个大模型。并且大家可能都知道,微调模型时,数据的准备是一件费时费力的事,而在Hugging Face上也有很多的数据集,可供大家下载使用。所以Hugging Face也被人称作:AI领域的GitHub。
2024-09-21 14:21:18
1060
原创 大模型部署工具 llama.cpp 介绍与安装使用_看完这篇就够了
这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。训练的过程,实际上就是在寻找模型参数,使得模型的损失函数最小化,推理结果最优化的过程。训练完成之后,模型的参数就固定了,这时候就可以使用模型进行推理,对外提供服务。作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2024-09-20 18:11:06
1777
原创 ChatGLM4重磅开源! 连忙实操测试一波,效果惊艳,真的好用!附带最新相关资料和喂饭级实操推理教程!!
GLM4重磅开源啦GLM4系列版本介绍GLM4大模型能力测评结果经典测评任务结果长文本能力工具调用能力多模态能力手把手实操GLM-4-9B-Chat推理预测&&效果展示GLM4运行硬件和环境要求配置对应的库环境使用peft+bitsandbytes 进行4位量化推理进行大模型的推理显存占用情况手把手实操 多模态版本GLM-4V-9B-Chat推理预测&&效果展示多模态GLM-4V-9B对应的硬件资源进行4位量化加载准备测试图片进行推理预测参考文档GLM-4-9B是智谱AI在24年6月5日推出的开源预训练模型
2024-09-20 18:08:37
1125
原创 # LLM高效微调详解-从Adpter、PrefixTuning到LoRA_llm高效微调技术
目前NLP主流范式是在大量通用数据上进行预训练语言模型训练,然后再针对特定下游任务进行微调,达到领域适应(迁移学习)的目的。指令微调是预训练语言模型微调的主流范式,其目的是尽量让下游任务的形式尽量接近预训练任务。从而减少下游任务和预训练任务之间的Gap, 实现预训练语言模型适应下游任务,而非下游任务去适应模型指令微调的效果要优于基于Zero/Few-shot的提示词工程的上下文学习。但随着预训练语言模型进入LLM时代,其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。
2024-09-18 14:41:14
1124
原创 3分钟告诉你如何成为一名黑客_|零基础到黑客入门指南,你必须掌握的这几点,看完这篇就足够了~
站在计算机角度上解释,黑客就是去寻找网站、系统、软件等漏洞,并利用漏洞来取得一些数据或达到控制,让对方程序崩溃等效果。刚入门的黑客大部分从事渗透工作,而渗透大部分属于web安全方向。因此换个淳朴点的名字称呼他们就是 ——安全工程师。是不是一下子就没那么神秘了?不过,所谓职称仅仅是代号。我认为黑客真正的魅力在于他们对于代码的痴迷与热爱,对自己能力近似于傲慢的自信以及打破陈规的创造力与勇气。当然不包括触犯法律。
2024-09-18 10:54:51
867
原创 【劲爆消息】GLM4 开源了!!!人工智能大模型又一大进步, 零基础入门到精通,收藏这一篇就够了
在人工智能领域,开源项目总是能够激发社区的创新活力。今天,我们要分享一个令人震撼的消息:智谱 AI 推出的最新一代预训练模型 GLM-4 系列中的开源版本——GLM-4-9B,现已全面开源!GLM-4-9B 不仅仅是一个模型,它是智谱 AI 对深度学习和自然语言处理能力的一次全新探索。在语义理解、数学推理、代码执行等多个领域,GLM-4-9B 展现出了超越 Llama-3-8B 的卓越性能。
2024-09-17 17:15:00
598
原创 # LLM高效微调详解-从Adpter、PrefixTuning到LoRA_llm高效微调技术, 零基础入门到精通,收藏这一篇就够了
目前NLP主流范式是在大量通用数据上进行预训练语言模型训练,然后再针对特定下游任务进行微调,达到领域适应(迁移学习)的目的。指令微调是预训练语言模型微调的主流范式,其目的是尽量让下游任务的形式尽量接近预训练任务。从而减少下游任务和预训练任务之间的Gap, 实现预训练语言模型适应下游任务,而非下游任务去适应模型指令微调的效果要优于基于Zero/Few-shot的提示词工程的上下文学习。但随着预训练语言模型进入LLM时代,其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。
2024-09-17 07:00:00
798
原创 【大模型微调】一文掌握7种大模型微调的方法, 零基础入门到精通,收藏这一篇就够了
本篇文章深入分析了大型模型微调的基本理念和多样化技术,细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景,使得读者可以依据特定的应用要求和计算资源限制,挑选最适合的微调方案。大型语言模型(LLM)的训练过程通常分为两大阶段:阶段一:预训练阶段在这个阶段,大型模型会在大规模的无标签数据集上接受训练,目标是使模型掌握语言的统计特征和基础知识。
2024-09-16 16:45:00
3943
原创 【大模型微调】一文掌握7种大模型微调的方法, 零基础入门到精通,收藏这一篇就够了
本篇文章深入分析了大型模型微调的基本理念和多样化技术,细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景,使得读者可以依据特定的应用要求和计算资源限制,挑选最适合的微调方案。大型语言模型(LLM)的训练过程通常分为两大阶段:阶段一:预训练阶段在这个阶段,大型模型会在大规模的无标签数据集上接受训练,目标是使模型掌握语言的统计特征和基础知识。
2024-09-15 15:45:00
1296
原创 九款国内免费大模型,前三款强烈推荐 !零基础入门到精通,收藏这一篇就够了
等多个领域展现其强大的多模态能力。此外,智谱清言还具备语音交互功能,使得用户与AI的互动更加自然和高效。
2024-09-14 10:45:01
3964
原创 新职业年薪40-80W!大模型入局最靠谱指南!零基础入门到精通,收藏这一篇就够了
今年招聘市场确实是好点了,我发现群友都在讨论,得赶快学点 AI 大模型。这也可以理解,ChatGPT 推出仅一年半的时间,就将生成式 AI 推向主流。不夸张地说,无论是从技术趋势、市场需求、提升解决问题的竞争力,又或职业发展各方面考虑,学 AI 都已经是程序员必须搞定的技能。但知道是一回事,做又是另一回事,绝大部分人不知道该,现在还是停留在各种简单的 AI 工具使用上,跟 GPT 聊聊天写写代码,让 MJ 画个图啥的。
2024-09-14 10:42:21
471
原创 大模型处理长上下文方法一览_大模型处理上下文,零基础入门到精通,收藏这一篇就够了
2023年中开始,各大LLM厂商开始关注到长上下文的问题。2023年5月,Claude把长度支持到100k tokens;6、7月的时候,ChatGPT3.5也已经支持16k,而ChatGLM2-B最大长度已经可以到32k。(插一句,ChatGLM系列做得一直很不错,从基础模型、长窗口、工具调用、Agent都一直保持在比较前沿的水平,个人最近用ChatGLM3、ChatGLM4体验还是很不错的)差不多同时间还有LM-SYS的LongChat,MosaicLM的MPT也支持16k以及更长的上下文。
2024-09-14 08:15:00
961
原创 AI大模型知识点大梳理_ai大模型知识学习,零基础入门到精通,收藏这一篇就够了
与其在AI抢占就业机会的危机中患得患失,不如快点接受这个新技术,将AI引入自己的工作中,通过AI来提升自己的生产力和创造力。AI大模型通过学习大量的图像数据和构建更深更复杂的神经网络,使计算机能够对图像进行更加准确的识别和分析。总的来说,“大模型”应该是基于具有超级大规模的、甚至可以称之为“超参数”的模型,需要大量的计算资源、更强的计算能力以及更优秀的算法优化方法进行训练和优化。大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。
2024-09-13 10:11:23
1130
原创 大语言模型的微调方法_大语言模型六种微调方法
自2018年BERT发布以来,“预训练+微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练,本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力,即使提供了预训练的基座模型,一般的研究机构也很难对其进行全量微调(即对所有参数进行微调)。为了应对这个问题,相关学者提出了PEFT(Parameter-Efficient Fine-Tuning,高效参数微调)技术,本文将总结并介绍几种常见的PEFT技术。
2024-09-12 17:39:17
394
原创 AI大模型入门基础教程(非常详细),AI大模型入门到精通,收藏这一篇就够了!
AI大模型,简而言之,是基于深度学习技术的庞大规模数据与计算能力孕育出的智能模型。这些模型的特别之处在于它们不仅参数量级的庞大,常常跨越亿计,而且在处理复杂度上也远超乎想象。正是这种规模和复杂性,使得它们在诸如自然语言理解、图像识别、语音识别等领域展现出卓越的准确性和泛化的处理能力,几乎可比拟的泛化应用范围。
2024-09-02 17:31:52
905
原创 中国大模型商业化提速:不仅企业赚钱,也让个人赚钱_视频大模型的书籍
最后,通过这些产品的上线,即便是不懂IT技术的小白也能成为AI行业的一份子,或者说,也让无数不懂技术的AI爱好者看到这样的可能性。这显然对大模型“真实应用”时代的早日到来助益颇丰。
2024-08-29 13:41:54
1411
原创 华为盘古大模型,让中医走向世界_2024年4月华为公司宣布推出什么大模型?_华为医学大模型
随着科技的飞速发展,人工智能已经逐渐渗透到各行各业,为许多领域带来了翻天覆地的变化。。华为作为全球领先的科技企业,一直致力于将人工智能技术应用于医药领域,推动传统医学与现代科技的深度融合。其中,华为中医药大模型便是其在这一领域的重要成果之一。。这一天,浙江九为健康科技股份有限公司与华为云计算技术有限公司在华为深圳总部签署了中医药大模型全面深化合作协议,共同推出了这一创新性的中医药大模型。该模型的出现标志着传统中医药与现代科技的深度融合,为中医药领域的研究、开发和应用提供了新的思路和方法。
2024-08-28 18:03:30
1855
原创 大模型如何改变世界?李彦宏:未来至少一半人要学会“提问题“
2023年爆火的大模型,对我们来说意味着什么?百度创始人、董事长兼CEO李彦宏认为,“大模型即将改变世界。5月26日,李彦宏参加了在北京举办的2023中关村论坛,发表了题为《大模型改变世界》的演讲。李彦宏认为,大模型成功地压缩了人类对于整个世界的认知,让我们看到了实现通用人工智能的路径。他表示,李彦宏预测,10年后,全世界有50%的工作会是提示词工程。对于这一变化,李彦宏认为“提出问题比解决问题更重要。我们的教育要教孩子提出问题,而不仅仅是解决问题。
2024-08-28 18:02:52
1247
原创 大语言模型的微调方法_大语言模型六种微调方法
自2018年BERT发布以来,“预训练+微调”成为语言模型的通用范式。以ChatGPT为代表的大语言模型针对不同任务构造Prompt来训练,本质上仍然是预训练与微调的使用范式。千亿规模的参数微调需要大量算力,即使提供了预训练的基座模型,一般的研究机构也很难对其进行全量微调(即对所有参数进行微调)。为了应对这个问题,相关学者提出了PEFT(Parameter-Efficient Fine-Tuning,高效参数微调)技术,本文将总结并介绍几种常见的PEFT技术。
2024-08-28 17:54:31
1065
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅