
语言模型
文章平均质量分 92
深度人工智能
工业和信息化职业能力证书《人工智能算法工程师》报名考试,普通人进入人工智能行业的最佳途径,有意者私信!
展开
-
从DeepSeek的爆火来看大模型微调技术的发展方向
在人工智能历史上发展最快、离生产力最近的阶段,便是从2023年开始的这两三年。2023年初,大模型技术的迅猛发展席卷了各行各业,尤其是到了2025年春节期间,火遍全国的DeepSeek更是成为了家喻户晓的名字。毫不夸张地说,连扫大街的阿姨都在问:“DeepSeek是干啥的?”这种现象不仅反映了人工智能技术的普及,也体现了大模型对社会各阶层的深远影响。以DeepSeek为代表的各类大模型,正在国内政府机构、高校、企业中掀起一场浩浩荡荡的应用浪潮。原创 2025-02-23 16:01:49 · 924 阅读 · 0 评论 -
自回归模型的优缺点及改进方向
在学术界和人工智能产业中,关于自回归模型的演进与应用一直是一个引发深入讨论和多方观点交锋的热门议题。尤其是Yann LeCun,这位享誉全球的AI领域学者、图灵奖的获得者,以及被誉为人工智能领域的三大巨擘之一,他对于自回归模型持有独特的批判视角。值得注意的是,自回归模型作为基础架构,支撑着当前备受瞩目的GPT系列大型语言模型(LLMs)的学习与预测机制,这些模型在自然语言处理领域展现出了革命性的影响力。LeCun教授不仅在其专业领域内享有崇高的声望,而且以其敏锐的洞察力和直言不讳的态度著称。原创 2024-05-11 12:58:53 · 2191 阅读 · 0 评论 -
「他山之石」:大模型时代的“小模型”
拿RTX 4060 Ti显卡为例,该系列推出了8GB和16GB不同显存容量的版本,对于参数量较大的模型,特别是20亿参数等级的模型,16GB显存版本无疑提供了更为宽裕的工作空间,这对于入门级和中级人工智能项目,如涉及大规模模型训练、复杂图像渲染或是高性能计算密集型应用,都能够提供必要的显存支持。这些模型都是在2024年发布的。然而,这样的策略也带来了一个悖论:若大幅度削减大模型的参数量以适应有限的计算资源,那么理论上讲,其原有的规模优势和丰富的表达能力将会削弱,从严格定义上可能就不再符合“大模型”的标准。原创 2024-03-25 18:31:14 · 1143 阅读 · 0 评论 -
大模型基础架构的变革:剖析Transformer的挑战者(上)
随着大模型在应用层面的发展,支撑大模型的底层架构模型Transformer所存在的各种问题也逐渐显现,业内一直都在寻找Transformer框架的替代方法。有在原Transformer架构基础上微调改良的,也有采用传统RNN模型的思想的架构,还有以CNN为基础模型的架构,更有将Transformer和其他RNN、CNN架构结合的混合架构模型。无论模型如何变化,目的都是为了更高效地完成任务。目前的大模型的基础架构改良和重设计,都是在三大基础架构之上进行的革新,即。原创 2024-01-22 17:36:17 · 1525 阅读 · 0 评论 -
Transformer架构的局限已凸显,被取代还有多久?
江山代有才人出,各领风骚数百年。这句话无论是放在古往今来的人类身上,还是放在当今人工智能领域的大模型之上,都是最贴切不过的。无论是一个时代的伟人,还是统治一个领域的技术,最终都会有新的挑战者将其替代。Transformer作为大模型的统治者,自从出现之后,就以其强大的语言理解能力击败了RNN模型,迅速占据了NLP领域的榜首,之后又是抢占了CNN主导的图像领域,成为了整个领域的王者,在之后很长一段时间内地位都稳固如初。原创 2024-01-09 17:32:49 · 1515 阅读 · 0 评论 -
生成式AI大模型对人类进化的影响
你是不是发现每天的工作都离不开ChatGPT之类的语言生成模型?离不开类似Midjourney的图像生成模型?离不开一些设计类的AI辅助工具?如果是,那说明你已经逐步被AI侵蚀了,你的创造力也正在逐渐下降,大模型正在剥夺你的创造力。不可否认,生成式大模型的出现,加速了的人类的发展,但是同时也正在逐渐剥夺着人类的创造力,到最后的结果可能就是大部分人类都会依靠AI来进行社会生产活动。原创 2023-12-22 18:44:57 · 673 阅读 · 0 评论 -
大模型的研究新方向:混合专家模型(MoE)
混合专家模型的实现涉及对专家模型和门控网络的联合训练,在整个数据输入处理的过程中,门控网络起到了动态调配专家模型资源的关键作用,使混合专家模型能够灵活地适应不同的输入数据分布和任务要求。说到这里的“门”概念,与LSTM网络的“门”概念有所不同,MoE的“门”概念主要是用于匹配数据和专家模型之间的连接,就好比不同班级的学生要进不同的教室上课一样,而LSTM的“门”概念主要是一种控制信息流动的装置,它可以保留或通过一定比例的数据,更像是在控制流量,而MoE的“门”概念可以看作是选择要通过的对象。原创 2023-12-13 15:42:13 · 2162 阅读 · 0 评论 -
【论文解读】:大模型免微调的上下文对齐方法
具体来说,通过分析基础LLMs和alignment-tuned版本在令牌分布上的差异,作者发现在大多数情况下,它们在解码上表现几乎相同,主要的变化发生在文体方面,如话语标记和安全声明。通过URIAL的成功应用,作者提出了一个引人深思的观点,即通过巧妙的提示和上下文学习,可以显著减小无调整和基于调整的alignment方法之间的差距。这暗示在SFT过程中,令人瞩目的是,在强基础LLMs(如Mistral-7b和Llama-2-70b)上,URIAL的性能优于经过SFT或SFT+RLHF对齐的LLMs。原创 2023-12-07 18:39:25 · 1404 阅读 · 0 评论 -
大模型的背景与现状问题
谈起大模型,第一时间想到的是什么?是主流的ChatGPT?或者GPT4?还是DALL-E3?亦或者Midjourney?以及Stablediffusion?还是层出不穷的其他各类AI Agent应用工具?大模型在2023年突然遍地开花,井喷式发展,尤其是后半年,几乎大部分科技公司、学术团体、研究机构、以及学生团队都在发布各自的大模型,感觉大模型突然从洛阳纸贵到了唾手可得。原创 2023-10-16 18:50:17 · 1664 阅读 · 0 评论 -
AIGC之文本内容生成概述(下)—— GPT
2020年5月28日,OpenAI发布新模型GPT-3。GPT-3被设计用来回答各种自然语言问题,并提供相关的知识和信息。同年6月11日,OpenAI将GPT-3以API的方式向学术机构、商业公司和个人开发者提供了一些需要申请的体验资格,并在同年9月将GPT-3授权给微软公司。对于所有任务,通过纯文本来指定任务和少量样本,GPT-3可以在无需任何梯度更新或微调的情况下被使用。对于GPT-3生成的新闻文章,评估员甚至无法区分其与人类撰写的新闻文章。GPT-3在GPT-2的基础上进行了改进和扩展。原创 2023-09-09 12:00:00 · 1046 阅读 · 0 评论 -
AIGC之文本内容生成概述(下)—— BERT
BERT的主要原理是通过使用无标签的大规模文本数据进行预训练,学习到通用的语言表示,并在下游任务上进行微调,属于pretraining+fine tuning的学习模式。BERT的关键思想是双向编码器和Transformer自注意力机制。关于自注意力机制在上面的Transformer模型中已经有了详细的介绍,接下来简单介绍一下BERT模型中的双向编码器和它的结构及运行过程。原创 2023-08-19 12:00:00 · 528 阅读 · 0 评论 -
AIGC之文本内容生成概述(下)——Transformer
在基于Transformer的编解码结构出现之前,也有基于RNN和LSTM的Seq2Seq的编解码结构网络,它在编码部分和解码部分所使用的是RNN或LSTM模块,和基于Transformer的编解码结构相比,RNN和LSTM模块在参数量和注意力机制这一块是区别最大的,Transformer由于全连接的模块设计,加上对数据集全领域的注意力施加,使得其在参数量和效果上远远高于使用RNN和LSTM模块的Seq2Seq编解码结构。解码器的作用是将编码器的输出和自身的输入进行交互,生成最终的解码结果。原创 2023-07-16 12:50:36 · 2012 阅读 · 0 评论