人工神经网络技术所使用的模型主要有4大类别:
a. 多层感知器(MLP,MultiLayer Perceptron)
b. 卷积神经网络(CNN,Convolutional Neural Network)
c. 循环神经网络(RNN,Recurrent Neural Network)
d. Transformer(个人观点:可以意译为“变换器”,这个名字表示从数据的语义变换的角度去看待其中的数学运算)
NPL自然语言处理
SAM大模型
简介
SAM(Segment Anything Model)是由Meta推出的一种人工智能大模型,专注于图像分割任务。它通过创新的设计和训练方法,能够在零样本(zero-shot)条件下快速适应新的图像分布和任务,展现出与完全监督模型相媲美甚至更优的性能。
SAM的核心特点
强大的零样本能力
SAM能够在没有特定任务训练数据的情况下,完成图像分割任务。例如,它可以通过单点 提示或文本提示生成掩码(mask),并在边缘检测、对象提议等任务中表现出色。
大规模数据集支持
SAM的训练基于一个包含1100万张图像和超过10亿个分割掩码的数据集,这是迄今为止最大的分割数据集之一。
开源与轻量化
SAM模型体积仅为2.4GB,采用Apache 2.0许可证开源,便于研究者和开发者使用和扩展。
SAM的应用领域
机器人技术:SAM的对象识别能力可提升机器人在复杂环境中的感知能力。
医学研究:在医学图像分析中,SAM的分割能力有助于病灶检测和诊断。
增强现实:SAM能够快速生成精确的掩码,为AR应用提供技术支持。
SAM的技术优势
1.简单可扩展的架构
SAM的设计注重简洁性和可扩展性,使其能够高效处理多种任务。
2.直观的人工注释流程
通过人工注释与模型训练的紧密结合,SAM能够不断优化性能。
3.数据飞轮效应
SAM的开源特性和大规模数据集推动了计算机视觉领域的创新,形成了良性循环。
Transformer模型
是一种基于自注意力机制的深度学习架构,由Google在2017年的论文《Attention Is All You Need》中首次提出,彻底改变了自然语言处理(NLP)领域的游戏规则。1
核心特点
自注意力机制:Transformer通过自注意力机制(Self-Attention)直接关注输入序列中的任意位置,快速捕捉长距离的语义关联,解决了传统RNN模型在处理长序列时的梯度消失或梯度爆炸问题。
并行计算:与RNN的顺序计算不同,Transformer的架构设计支持并行计算,显著提高了训练效率。
Encoder-Decoder架构:Transformer由编码组件和解码组件组成,编码器负责将输入序列转换为特征表示,解码器则生成输出序列。
模型组成
编码器:由多层编码器堆叠而成,每层包含自注意力层和前馈神经网络(FFN)。
解码器:结构与编码器类似,但额外增加了Encoder-Decoder Attention层,用于关注输入序列的相关部分。
应用领域
NLP任务:Transformer在机器翻译、文本分类、情感分析等任务中表现出色,显著提升了准确率和效率。,
生成式AI:如ChatGPT等生成式AI工具基于Transformer架构,能够更好地理解上下文并生成连贯的文本。
ViT 主要用于提取图像特征,其思想简单有效且具有良好的扩展性,被视为 Transformer 在计算机视觉领域应用的重要里程碑之一。
术语“dropout”是指在神经网络中丢弃单元(包括隐藏的和可见的)。
简单来说,dropout 是指随机选择的某组神经元在训练阶段忽略单元(即神经元)。 “忽略”是指在特定的前向或后向传递过程中不考虑这些单元。
详细的就是,在每个训练阶段,单个节点要么以 1-p 的概率退出网络,要么以 p 的概率保留,这样就剩下一个缩小的网络;也删除了到丢弃节点的传入和传出边。