人工智能
文章平均质量分 76
modi000
生命不止,奋斗不息!
展开
-
Transformer学习笔记
解码器是自回归的,当前时刻的输入集合是之前一些时刻的输入,在训练与预测的时候,编码器不能看到之后时刻的输出,但attention每一次都能看到完完整整的输入,所以通过掩码的注意力层避免这个情况的发生(避免在 t 时刻,看到 t 时刻以后的输入)。当某一个值比较大的时候,与其余各值的相对的差距会变大,导致最大值的softmax会更加靠近1,其余各值会更加靠近0,值就会更加向两端靠拢,算梯度的时候,梯度比较小。embedding(本质为线性层):将输入的一个词语 token 映射成 为一个长为 d 的向量。转载 2024-02-02 10:31:39 · 248 阅读 · 0 评论 -
AI学习_模型优化:剪枝、蒸馏、量化
量化、剪支、蒸馏注意:这三种方法是三选一!不能同时用Q:为什么不能同时用?A:技术上可以同时用,但没有必要每一种优化(压缩)方式都会对模型精度有一定的影响,同时用更会叠加这种影响。如果精度损失过大,就得不偿失了。转载 2024-02-01 16:09:44 · 582 阅读 · 0 评论 -
大语言模型的指令微调(Instruction Tuning)最全综述:从数据集到技术全解析
而指令微调是一种通过在包括(指令,输出)对的数据集上进一步训练大型语言模型(LLMs)的过程,以增强LLMs的能力和可控性。指令微调的特殊之处在于其数据集的结构,即由人类指令和期望的输出组成的配对。总的来说,指令微调是有监督微调的一种特殊形式,专注于通过理解和遵循人类指令来增强大型语言模型的能力和可控性。如果按照在模型哪个阶段使用微调,或者根据模型微调的目标来区分,也可以从提示微调、指令微调、有监督微调的方式来。其实,很多领域都有对大模型做指令微调的需求,但是不同领域的指令微调需求可能也有差异。转载 2024-02-01 15:35:40 · 6342 阅读 · 0 评论 -
Transformer背景介绍及架构解析
2018年10月,Google发出一篇论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》, BERT模型横空出世, 并横扫NLP领域11项任务的最佳成绩!论文地址:而在BERT中发挥重要作用的结构就是Transformer, 之后又相继出现XLNET,roBERT等模型击败了BERT,但是他们的核心没有变,仍然是:Transformer.转载 2024-02-01 09:30:31 · 137 阅读 · 0 评论 -
私有云介绍
私有云与公共云的不同在于,私有云的云资源全部部署在企业自己的数据中心或者其他自己掌控的地方,而公共云是由云服务提供商提供的,用户可以通过互联网访问这些云资源。更好的性能:私有云可以提供更高的性能和更好的响应速度,由于私有云的资源可以被企业内部的应用程序所独占,不会受到公共云平台的资源共享影响,可以提供更好的应用程序性能和响应速度。安全性更高:私有云可以提供更高的数据安全性,由于数据存储在企业内部的私有云中,企业可以自主控制数据的访问权限和安全策略,防止数据被非法获取和滥用。转载 2024-01-31 10:52:48 · 182 阅读 · 0 评论 -
私有化部署、本地化部署
私有化部署是一种将软件应用部署在自有服务器或云环境中的方式。相对于将应用程序托管在第三方服务提供商的服务器上,私有化部署能够更好地满足一些组织或个人对数据安全、数据控制权和个性化定制等方面的需求。在私有化部署中,用户可以自己选择服务器硬件设备、操作系统、数据库等基础设施,根据实际情况进行配置和扩展。用户也可以根据自己的需求进行个性化的定制,根据具体业务流程进行二次开发和功能扩展。私有化部署可以更好地满足用户对数据安全和隐私保护的要求,同时也能够更好地保护商业秘密和核心竞争力。转载 2024-01-30 15:15:13 · 247 阅读 · 0 评论 -
自然语言是什么意思
涵盖了多种语言,如英语、中文、法语、西班牙语等。与之相对的是形式语言,后者主要用于特定领域或目的,如数学符号和编程语言。自然语言处理(Natural Language Processing,简称NLP)是一门研究如何使计算机能够理解和处理人类自然语言的科学技术,其应用范围广泛,包括文本分析、语义理解、情感分析和机器翻译等。自然语言是用来沟通、表达观点、传达信息和交流意义的工具,它的灵活性和多义性使其能够在不同语境下根据使用者意图进行解释和理解。转载 2024-01-30 10:53:22 · 1511 阅读 · 0 评论 -
transformer架构的理解
例如:腰围(key)与体重(value)形成一个键值对的映射关系,我们要查询(query,请求)腰围是57kg对应的体重。如上图所示,transformer(形状像变压器?)的架构左边是n个结构体相同的编码器,右边是n个结构相同的解码器。注意力机制,应该就是权重,跟query的内容接近的Vlaue权重就高。一维的情况:注意力机制涉及三个向量,q,k,v。原创 2024-01-26 14:46:10 · 490 阅读 · 0 评论 -
qkv自注意力机制原理
在注意力机制中,有三个重要参数:q、k、v。q表示查询向量,k表示键向量,v表示值向量。当模型接收到输入时,会将输入向量分别转化为这三个向量,并计算他们之间的相似度得分。这些得分被用来计算输入中每个位置的加权和,使得模型能够关注那些重要的位置。这种注意力机制的好处在于它可以自适应的学习输入中的关键信息,而不需要手动指定那些部分是重要的。转载 2024-01-25 12:26:49 · 580 阅读 · 0 评论 -
注意力机制的简单理解
交叉注意力(Cross-Attention)是一种注意力机制的变体,通常用于处理多个输入序列之间的关系。它在自然语言处理(NLP)和计算机视觉(CV)等领域中得到广泛应用。在传统的自注意力机制中,输入序列中的每个位置都可以作为查询、键和值。而在交叉注意力中,通常有两个不同的输入序列,一个作为查询序列,另一个作为键和值序列。这样可以通过计算查询序列与键序列之间的关联,来为查询序列生成上下文相关的表示。交叉注意力的计算过程如下:1)将查询序列和键序列分别映射为查询向量和键向量。转载 2024-01-25 11:45:24 · 141 阅读 · 0 评论 -
人工智能算力使用用GPU不用CPU的原因
并行计算能力:GPU拥有数百个甚至数千个小型处理核心,能够同时执行大量的并行计算任务,以提高运算效率。而CPU大多数只有几个核心,可能会在处理大量数据时导致性能瓶颈。浮点运算速度:GPU的计算单元是为了处理图像和视频等高密度浮点运算而设计的,而AI模型的训练和推理也需要大量浮点运算。总之,GPU具备快速、高效的并行计算和强大的浮点运算能力,并且在内存带宽方面也具有优势。因此,在人工智能中,GPU通常比CPU更适合用于加速模型的训练和推理。例如,在进行深度学习时,必须将大量的数据流入GPU,以提高训练效率。转载 2024-01-16 17:03:51 · 873 阅读 · 0 评论 -
注意力机制和Transformer原理
但是,在Transformer模型的多头注意力机制中,模型会同时处理序列中的所有元素,这就可能导致模型在处理某个元素时“看到”它后面的元素,从而获取到未来的信息。然而,传统的序列处理模型,如循环神经网络(RNN),在处理长序列时,可能会遇到长距离依赖问题,即模型难以捕捉到序列中相隔较远的元素之间的依赖关系。需要注意的是,实际的注意力机制可能会更复杂,例如在Transformer模型中使用的是多头注意力机制(Multi-Head Attention),它会同时计算多个不同的注意力分布,然后将它们合并起来。转载 2024-01-16 16:10:51 · 98 阅读 · 0 评论 -
监督学习与无监督学习
在这里,我们采用了未标记的输入数据,这意味着它没有分类,也没有给出相应的输出。在上一个主题中,我们学习了监督机器学习,其中模型在训练数据的监督下使用标记数据进行训练。监督学习是机器学习的类型,其中机器使用“标记好”的训练数据进行训练,并基于该数据,机器预测输出。监督学习是一种机器学习,其中模型使用未标记的数据集进行训练,并允许在没有任何监督的情况下对该数据进行操作。如果模型预测出正确的输出,这意味着我们的模型是准确的。与监督学习相比,无监督学习用于更复杂的任务,因为在无监督学习中,我们没有标记的输入数据。转载 2024-01-16 15:16:13 · 65 阅读 · 0 评论 -
【机器学习笔记】有监督学习和无监督学习
而DataVisor开发的无监督算法,具有极强的扩展性,无论多加的这一维数据的权重有多高,都不影响原来的结果输出,原来的成果仍然可以保留,只需要对多增加的这一维数据做一次处理即可。而无监督学习方法只有要分析的数据集的本身,预先没有什么标签。训练样本的标记信息未知, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到。转载 2024-01-16 15:08:13 · 64 阅读 · 0 评论 -
5分钟了解预训练、微调和上下文学习
例如,在NLP中,预训练的模型(如BERT、GPT)可以在大规模无监督的语料库上学习语言模型,然后通过微调在特定的下游任务上获得显著的性能提升。值得注意的是,与需要使用反向梯度更新模型参数的训练阶段的监督学习不同,ICL 不需要参数更新,并直接对预先训练好的语言模型进行预测(这是与 prompt,传统 demonstration learning 不同的地方,ICL 不需要在下游 P-tuning 或 Fine-tuning)。传统的学习方法通常是在孤立的、脱离实际应用环境的情况下进行的。转载 2024-01-16 14:42:47 · 79 阅读 · 0 评论 -
softmax详解
batch的大小为3,经过softmax回归输出的结果是一个3×3的二维矩阵,根据交差熵的公式,应该将每行的结果相加得到3个输入样本的的交差熵,然后在对3行取平均得到这个batch的平均交差熵。常用的方法是使用交差熵(cross entropy),它的计算值表征两个概率分布之间的距离,它是分类问题中使用比较广的损失函数。这里的softmax可以看做一个激励【activation】函数或者链接【link】函数,把我们定义的线性函数的输出转化成我们想要的格式,也就是关于10个数字类别的概率分布。转载 2024-01-16 14:20:04 · 2715 阅读 · 0 评论 -
通俗易懂的讲解Softmax
通常位于神经网络的最后一层,它的作用是将前面输出层的数据转换为概率分布,这个概率分布的特点就是:任意事件发生的概率在0-1之间,且所有事件发生的概率总和为1,并且总有一个事件会发生。显示,Embedding层通常作为神经网络的第一层,本文显示,Softmax是机器学习中很重要的分类函数。3,经过神经网络的层层筛选,最终到达S o f t m a x SoftmaxSoftmax这一层之前,输出是一个10维的向量。1,数字识别问题最终是一个10分类问题(分类结果以0,1,2,3,4,5,6,7,8,9划分)转载 2024-01-16 14:08:28 · 403 阅读 · 0 评论 -
深度学习中Embedding的解释
另外,向量间的距离也可能会建立联系,比方说“北京”是“中国”的首都,“巴黎”是“法国”的首都,那么向量:|中国|-|北京|=|法国|-|巴黎|通过这种方式,我们可以将神经网络、深度学习用于更广泛的领域,Embedding 可以表示更多的东西,而这其中的关键在于要想清楚我们需要解决的问题和应用 Embedding 表示我们期望的内容。同理也是一样的,低维的数据可能包含的特征是非常笼统的,我们需要不停地拉近拉远来改变我们的感受,让我们对这幅图有不同的观察点,找出我们要的"茬"。)当然,目测这是不可能完成的。转载 2024-01-16 13:15:50 · 179 阅读 · 0 评论 -
深度学习-softmax
所以此时用到了soft的概念,Softmax的含义就在于不再唯一的确定某一个最大值,而是为每个输出分类的结果都赋予一个概率值,表示属于每个类别的可能性。对于式子1来说,只针对正确类别的对应的输出节点,将这个位置的Softmax值最大化,而式子2则是直接衡量真实分布和实际输出的分布之间的距离。上面使用了函数相除的导数运算,由于是对求导数,由于此时j≠i,因此相当于常数,常数的导数为0,对求导同样只保留。Softmax是将各个输出节点的输出值范围映射到[0, 1],并且约束各个输出节点的输出值的和为1的函数。转载 2024-01-16 12:56:42 · 58 阅读 · 0 评论 -
【文本分类】深入理解embedding层的模型、结构与文本表示
假设,原始数据有F个特征,通过one-hot编码后,表示成N维的向量,即input层的维度是N,和权重矩阵相乘,变成embedding_size维的向量。上图中,假设1个batch内的文本数为k,每篇文本中的词语数为4,嵌入层的维度为n,|v|为词典中的总词数,那么输入为(k,4)的张量,文本矩阵为(k,4,n)的三维张量,嵌入层参数矩阵形状为(|v|,n)。是input输入层的输出。从降维的角度看,定义了嵌入层的维度为n后,词向量就是把词典中的所有词用n个维度来表征出来,相当于特征提取。转载 2024-01-16 11:44:14 · 2111 阅读 · 0 评论 -
人工智能的技术概念解释
3、RLHF(Reinforcement Learning fromHuman Feedback,人类反馈强化学习)起到的作用是,通过将人类的反馈纳入训练过程,为机器提供了一种自然的、人性化的互动学习过程。在RLHF中,强化学习与人类反馈相结合,人类的偏好被用作奖励信号,以指导模型的训练,从而增强模型对人类意图的理解和满足程度。在生成模型中,RLHF还可以让生成的图像与文本提示得到充分对齐。这是一种常见的深度学习策略,通常在预训练的大语言模型上使用。2)强化学习与监督学习有很大的不同,强化学习。原创 2024-01-16 11:38:37 · 519 阅读 · 0 评论 -
人工智能的三大学派
研究领域注重方向符号主义研究抽象思维注重数学可解释性连接主义研究形象思维偏向于仿人脑模型行为主义研究感知思维偏向于应用和身体模拟人类具有智能不仅仅是因为人有大脑,并且能够保持持续学习。机器要想更“智能”,也需要不断学习。符号主义靠人工赋予机器智能,连接主义是靠机器自行习得智能,行为主义在与环境的作用和反馈中获得智能。它们彼此之间扬长补短,相信随着人工智能研究的不断深入,这三大学派会融合贯通,共同合作创造更强大的强大的人工智能。转载 2024-01-16 11:01:38 · 2555 阅读 · 0 评论 -
人工智能学派简介
20世纪60~70年代,连接主义,尤其是对以感知机(perceptron)为代表的脑模型的研究出现过热潮,由于受到当时的理论模型、生物原型和技术条件的限制,脑模型研究在20世纪70年代后期至80年代初期落入低潮。到20世纪60~70年代,上述这些控制论系统的研究取得一定进展,播下智能控制和智能机器人的种子,并在20世纪80年代诞生了智能控制和智能机器人系统。符号主义曾长期一枝独秀,为人工智能的发展作出重要贡献,尤其是专家系统的成功开发与应用,为人工智能走向工程应用和实现理论联系实际具有特别重要的意义。转载 2024-01-16 10:41:46 · 130 阅读 · 0 评论 -
如何调整AI模型参数:max tokens与上下文长度
举例来说,如果context length是500个词,而max tokens是100个词,那么模型在生成回应时会考虑最近的500个词作为其上下文,并生成不超过100个词的回应。重要的是要注意,这些值的增加可能会导致计算资源的需求增加,因此也需要考虑到实际的资源限制。对于需要理解和维持长对话的任务,您可以尝试增加context length的值,例如设置为5000或更高,以保持对话的上下文。对于需要长篇生成的任务,您可以尝试增加max tokens的值,例如设置为5000或更高,以便生成更长的内容。转载 2024-01-15 17:35:35 · 4144 阅读 · 0 评论 -
纯干货全面解读AI框架RAG
这种能力的增加不仅极大地扩展了模型的知识范围,还提高了其与现实世界同步的能力,让它能够更有效地参与到关于时事的对话中。如果你的问题涉及特定的专业领域,RAG就像一个熟练的图书管理员,它不仅掌握着大量的专业书籍,还能够迅速而准确地从这些书籍中找到与你的问题最相关的答案。设想你有成千上万本书籍和文章,当你提出一个问题时,检索模型就像一个聪明的图书管理员,能迅速理解你的问题并找到与之最相关的最佳信息。 作者:秋水札记 https://www.bilibili.com/read/cv27742028/?转载 2023-11-22 10:26:05 · 489 阅读 · 0 评论 -
LLM的上下文长度
转载:转载 2023-11-09 15:31:40 · 97 阅读 · 0 评论 -
从机器智能到感知智能,再到认知智能的人工智能技术
综上所述,从机器智能到感知智能,再到认知智能,人工智能技术正在以惊人的速度向前发展。感知智能使机器能够主动感知和理解外部环境,认知智能赋予机器类似人类的学习、推理和记忆能力。随着技术的不断突破和应用场景的拓展,相信认知智能将继续推动人工智能技术的创新与发展,为我们的未来带来更多可能性和机遇。人工智能技术的发展一直以来都备受关注,近年来,从机器智能到感知智能,再到认知智能,人工智能越来越接近人类的智能水平。本文将详细介绍从机器智能到感知智能,再到认知智能的人工智能技术,并探讨其对社会与生活的深远影响。转载 2023-11-02 11:07:52 · 172 阅读 · 0 评论 -
RPA的介绍
RPA是Robotic Process Automation的缩写,它译为机器人流程自动化,指用软件机器人实现业务处理的自动化,是以“模拟人”的方式进行业务操作,它可以帮助企业处理很多重复的、规则固定的、繁琐的流程作业。RPA技术无需侵入已有的软件系统,通过模拟人的行为进行操作,对于原有系统不感知,打破多软件、多系统、多版本系统间的数据孤岛问题,打破系统制约,打通业务数据,实现企业效率实质提升,助力业务增长。引入数字化劳动力,使用RPA自动化机器人可以全天候7x24小时不间断的、高效率的完成工作。转载 2023-09-05 17:16:57 · 339 阅读 · 0 评论 -
Transformer模型详解
大家好,欢迎来到《分享本周所学》第二期。本人是一名人工智能初学者,最近一周学了一下Transformer这个特别流行而且特别强大的模型,觉得非常有收获,就想用浅显易懂的语言让大家对这个超级神器有所了解。然后因为我也只是一名小白,所以有错误的地方还希望大佬们多多指正。 其实这周我还干了一点别的事,就是自己在虚拟机上配置了一个Ubuntu的GPU环境,然后在里面做了一个AI实时语音识别的小程序。其实这是我第一次真正接触Linux系统,之前只是瞎玩一玩,甚至没有在命令行里用过任何指令,连从网上复制下转载 2023-08-16 14:39:52 · 241 阅读 · 0 评论 -
一分钟理解softmax函数
它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来。为了确保各个预测结果的概率之和等于1。方法就是将转化后的结果除以所有转化后结果之和,可以理解为转化后结果占总数的百分比。下图为y=exp(x)的图像,我们可以知道指数函数的值域取值范围是零到正无穷。softmax第一步就是将模型的预测结果转化到指数函数上,这样保证了概率的非负性。首先,我们知道概率有两个性质:1)预测的概率为非负数;softmax就是将在负无穷到正无穷上的预测结果按照这两步转换为概率的。转载 2023-08-16 14:22:53 · 351 阅读 · 0 评论 -
为什么要对数据进行「归一化」?
另外,权重增量dw和输入x有关系,x越大,那么dw越大,这就意味着:在梯度下降过程中,较大x的更新速度要大于较小x,从而需要更多的迭代才能找到最优解。可以看出,每一次更新都有一项wi·gi',这就意味着:随着网络的加深,由于链式法则需要连乘wi·gi',而每一个wi·gi'都比较大(大于1),从而出现梯度爆炸。其中,上标[L-1]指第L-1层,其实挺好理解:用第L-1层的信息计算第L层。其中,w是权重,x是输入,b是偏置,σ(·)是sigmoid函数。未进行归一化,权重变大:(红线粗细反应权重大小)转载 2023-08-16 14:12:33 · 291 阅读 · 0 评论 -
深度学习模型可解释性(重温入门知识)
相信大家在进行模型开发的过程中,都会经历一个阶段,大量的翻阅google上的学术paper,尝试各种神经网络组合,会发现现在有非常多的神经网络结构被提出,论文里的实验结果也非常惊艳,这个时候,我们会抱着“侥幸心理”去进行大量尝试,虽然paper里的问题场景我们的项目可能并不一致。这批导致误报的样本的共性是什么?但是同时另一方面,很多情况下,输入数据的特征空间是高维特征,例如笔者所在的安全领域,抽象后的向量特征常常高达上万,面对这种高维数据,寻找input-ouput之间的线性相关,是非常困难的。转载 2023-08-15 13:54:01 · 313 阅读 · 0 评论 -
【机器学习】模型的可解释性浅谈
在我们做型的时候,需要在两个方面之间进行权衡,仅仅想要知道预测是什么,还是要知道模型为什么要给出这样的预测。但是在其他领域,比如在金融和医疗领域,模型的预测结果将会对相关的人产生巨大的影响,有时候我们依然需要专家对结果进行解释。解释为什么一个机器学习模型将某个患者的肿瘤归类为良性或恶性,解释为什么模型会拒绝一个人的贷款申请,这样,专家更有可能信任机器学习模型给出的预测结果。所以作为数据科学家和决策制定者来说,理解我们训练和发布的模型如何做出决策,让我们可以事先预防偏差的增大以及消除他们,是我们的责任。转载 2023-08-14 17:46:31 · 238 阅读 · 0 评论 -
谈谈机器学习模型的可解释性
特征重要性的定义是当改变一个特征的值的时候,对于预测误差带来的变化。当我们改变一个特征,预测误差发生了很大的变化,说明该特征又很大的影响力,而相反的,如果改变另一个特征的值,对于预测结果的误差没有什么影响,那说明这个特征无关紧要。如上图所示的特征交互图反映了,例如一个模型有两个特征,那么模型可以是一个常量 + 只包含第一个特征的项 + 只包含第二个特征的项 + 两个特征的交互项。替代模型就是用一个可解释的更简单的模型,对于黑盒模型的输入和预测训练出一个替代品,用这个模型来解释复杂的黑盒模型。转载 2023-08-14 16:34:29 · 125 阅读 · 0 评论 -
数据 算法 模型之间的关系 通俗理解
从上边的过程可以看出,妈妈教孩子识字的过程就是一个机器学习的过程,繁多的汉字作为训练的原始数据集,孩子就是已经定义好的模型结构(这个没得选),妈妈的教育过程就是一个有监督的数据训练的过程,孩子的反馈和妈妈的纠正属于前向传播和反向传播的算法执行过程,最终孩子学会了识记各种汉字,直白点孩子此时本身就是一个识别汉字的模型。妈妈教孩子认字,那一个个的汉字就是数据,妈妈教孩子的过程就是训练的过程,妈妈用的方法就是算法,孩子最后就成了一个能够认识不同字的模型。开篇的基础认知讲解。这是转载别人的一篇文章。转载 2023-08-14 16:26:10 · 102 阅读 · 0 评论 -
【机器学习】深度学习框架是什么?有哪些?如何选择?
在CMU的DyNet和Facebook的PyTorch出现之前,Chainer一直是动态计算图或网络的领先神经网络框架,这种网络允许输入可变长度,而这正是NLP任务的一个流行特性。Keras在更高的水平上。根据Chainer的基准测试,Chainer明显比其他面向Python的框架更快,其中TensorFlow是包括MxNet和CNTK的测试组中速度最慢的。作一个简单的比喻,一套深度学习框架就是这个品牌的一套积木,各个组件就是某个模型或算法的一部分,你可以自己设计如何使用积木去堆砌符合你数据集的积木。转载 2023-08-14 14:24:23 · 3418 阅读 · 0 评论 -
CUDA详解(让显卡可以用于图像计算以外的目的。)
是。CUDA™是一种由推出的,该架构。它包含了。开发人员可以使用C语言来为CUDA™架构编写程序,所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。CUDA3.0已经开始支持C++和FORTRAN。转载 2023-08-14 14:29:43 · 308 阅读 · 0 评论 -
什么是SOTA,SOTA是什么意思
版权声明:本文为CSDN博主「:)�东东要拼命」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qq_68308828/article/details/126708258。指在公开的数据集上,目前检测到的效果,识别率最高,正确率最高,算法模型最顶的。这个词语代表着最最最最前沿的,最最最先进的,目前最高水平的意思。SOTA 就是很牛的意思,在计算机视觉方面比较常见。全称是state-of-the-art。转载 2023-08-09 11:01:03 · 1193 阅读 · 0 评论 -
SFT 监督微调
在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。监督式微调能够利用预训练模型的参数和结构,避免从头开始训练模型,从而加速模型的训练过程,并且能够提高模型在目标任务上的表现。首先,需要大量的标注数据用于目标任务的微调,如果标注数据不足,可能会导致微调后的模型表现不佳。其次,由于预训练模型的参数和结构对微调后的模型性能有很大影响,因此选择合适的预训练模型也很重要。评估: 使用目标任务的测试集对微调后的模型进行评估,得到模型在目标任务上的性能指标。转载 2023-08-08 10:32:47 · 721 阅读 · 0 评论 -
什么是自监督学习?
在视频领域可以基于帧的相似性进行研究,对于视频中的每一帧存在特征相似的概念,简单来说可以认为视频中的相邻帧的特征是相似的,而相隔较远的视频帧之间的相似度较低。自监督学习的优势,就是可以在无标签的数据上完成训练,而监督学习需要大量的有标签数据,强化学习需要与环境的大量交互尝试,数据为王的时代,此特点也使得大家充分相信自监督学习才是人工智能的发展方向。在基于上下文的方法中大多是基于样本本身的信息,而样本间其实也具有很多的约束关系,因此可以利用时序约束来进行自监督学习。转载 2023-08-07 18:31:18 · 171 阅读 · 0 评论