5分钟入门算法
文章平均质量分 86
董董灿是个攻城狮
阿里云社区专家博主,AI算法工程师
展开
-
什么是 dropblock 算法?
那么如图 b 所示,随机丢弃激活单元的方法,仅仅是丢弃了单个单元,剩余的绿色区域中仍然包含了原来的特征(比如耳朵、嘴巴和腿的特征),因此这种单纯的 dropout 方法并不有效。(图c),却可以直接丢掉一些特定的区域信息(比如将左上角的耳朵信息全部丢掉,或者右下角的腿的信息),从而强制剩余的神经元去学习更重要的特征。由于图像像素局部性的存在,假设绿色区域中左上角激活的为狗子的耳朵,中间部分激活的为狗子的嘴巴,右下激活的为狗子的腿。,它在训练神经网络中,可以随机地丢弃神经元,是一种可以防止网络过拟合的方法。原创 2024-10-06 23:16:15 · 845 阅读 · 0 评论 -
美团的 AI 面试有点简单
数据增强是一种通过对原始数据集进行变换,生成新的训练样本的技术。这些变换包括图像翻转、旋转、缩放、裁剪以及其他各种手法,通过引入这些变化,可以有效地扩充数据集的规模,提高模型的泛化能力。是不是很简单?将原始数据集做一些变换然后送给模型做训练,此时裁剪出来的图片,可能就是猫咪尖尖的耳朵和大大的眼睛,训练过程中模型依然会判断这是猫。此时,如果在送给模型一只戴着头盔的猫,即使模型不认识头盔,它也认识猫耳朵,从而识别出来这是一只猫。原创 2024-06-13 09:37:45 · 1785 阅读 · 0 评论 -
5分钟搞懂词向量生成技术:Word2Vec
举个例子,如果在训练时,模型看到了句子“猫喜欢吃鱼”,在Skip-gram模型中,如果选择“喜欢”作为输入单词,模型便会试图预测它周围的“猫”和“吃鱼”。简单来说,Word2Vec 并不是一个具体的神经网络模型,而是一个由很多生成词向量的模型(算法)组成的词向量生成框架,或者词向量生成工具。我们通过观察可以很轻松的看出来,“猫”和“狗”的两个向量很相近,“鱼”和“跑”代表的两个向量则相差很远。相同的是,这两种方法都是让模型来学习大量的文本,以及文本中单词的使用环境来生成高质量的词向量。原创 2024-04-24 22:30:52 · 1588 阅读 · 0 评论 -
计算机是如何理解文本的?
余弦相似度虽然可以方便快速的判断两个向量之间的关系,但是它也是有缺点的,那就是它并没有考虑向量的绝对大小,只关注方向,这一点在公式中也可以看出来。通过计算也可以得到相同的结论:“猫”和“狗”余弦相似度接近1,说明两个向量更为接近,而“鱼”和“跑”则接近-1,说明两个向量代表的单词相差很远。我们通过观察可以很轻松的看出来,“猫”和“狗”的两个向量很相近,“鱼”和“跑”代表的两个向量则相差很远。- 两个向量之间的夹角越小,余弦相似度值越接近于1,说明两个向量靠的越近,代表的两个单词就越相关。原创 2024-04-24 22:33:53 · 835 阅读 · 0 评论 -
大模型的自我监督
因此,每给定一个单词(Token),模型都要预测下一个词,然后将预测出来的词加上原来已有的词作为新的输入,继续预测下一个词,如此反复迭代。事实上,很多自然语言处理(NLP)的模型,尤其是上文提到的大语言模型(如GPT系列),都是通过无监督学习或自监督学习的方式进行训练的。在 GPT 等模型的训练时,如果给定上述句子作为模型的输入,是希望模型可以预测出下一个词是什么,这是模型的任务。在这种训练模式下,模型被训练来预测给定前文的下一个词,这样,模型就能学习到文本的顺序结构和语言的生成过程。原创 2024-04-15 21:49:07 · 1225 阅读 · 0 评论 -
5分钟彻底搞懂什么是token
而一旦将词分成子词,模型只需要记住"bug"、"value" 和 "de" 这三个 token 即可,而且还可以扩展识别出 "decrease "的意思。还可能把 “debug” 这个单词看作两个 token,分别为"de" 和 "bug",这样模型可能知道 “de” 前缀代表“减少”的意思。因为当时接触视觉模型多一些,在视觉模型的性能评估中,有一个关键指标叫做 fps,通俗理解就是一秒钟可以处理的图片数。否则,模型可能需要记住"bug"、"debug","value","devalue"四个token.原创 2024-01-09 22:36:02 · 9766 阅读 · 3 评论 -
5分钟搞懂AI的可解释性
神经网络的可解释性,说白了,就是研究如何科学的解释神经网络的工作原理。我们在使用 AI 模型之前,要确保模型是科学的,并且是可以解释的。特别是那些看起来像黑盒的深度学习模型,一定要搞清楚它们到底是如何从一堆数据中学到东西的。为什么要研究这个呢?这当然不仅仅是为了满足好奇心,更重要的是,可以让我们信任 AI,可解释性可以确保 AI 的输出和决策是安全的。尤其是在医疗和金融这种关键领域,我们需要确保 AI 不是在瞎猜,它的决策是有依据的。原创 2024-01-05 22:33:31 · 1053 阅读 · 0 评论 -
5分钟理解什么是多模态
简单来说,多模态指的是数据或者信息的多种表现形式。比如,我想把"我有一个苹果"这个信息传递给你,我可以用文字写出来,也可以用语言说出来,也可以用图片画出来,甚至我还可以拍成视频告诉你。这就是典型的一种信息,多种存在形式上的多模态。我们可以这么理解,文本是一种模态,图像也是一种模态,甚至两种不同的语言,比如中文和英文,也各是一种不同的模态。之所以相同的信息有那么多模态,是因为人类有多种感官来处理信息:比如听觉、嗅觉、视觉、触觉、味觉等,它们都可以获取并且处理不同形式的信息。原创 2024-01-03 22:25:26 · 29174 阅读 · 3 评论