自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI与算法都要通俗易懂

董董灿的AI聚集地

  • 博客(299)
  • 资源 (1)
  • 收藏
  • 关注

原创 我的Transformer专栏来啦

现在很多主流的大语言模型,比如chatGPT都是基于该架构进行的模型设计,可以说Transformer顶起了AI的半壁江山。对于这些有些枯燥的概念,有些乏味的数学表达,我会尽可能说的直白和通俗易懂,打通理解Transformer的最后一公里。我会在本公众号进行文章的首发,相关文章会添加标签“Transformer专栏”,可点击文章左下角的标签查看所有文章。巧的是,下班路上刚手敲完大纲,晚上一个小伙伴来咨询学习LLM的事情,问我之前写的《五一节前吹的牛,五一期间没完成,今天忙里偷闲,给完成了。

2024-05-09 22:05:51 697 2

原创 历时3个月,代码开源了,给所有想入门 AI 视觉的朋友

本项目旨在完成对 AI 的计算机视觉的入门学习,并且在 Intel CPU 上完成以 resnet50 为基础的神经网络的全部手写,以及性能优化。首先通过对一些经典的传统计算机视觉算法进行实操,理解计算机视觉的含义;随后以 resnet50 神经网络为例子,系统的讲解一个 AI 模型的基础算法原理和相关背景知识。最后通过本仓库中的代码实战,从零手写 resnet50 神经网络,完成任意一张图片的识别,以及神经网络模型的性能优化。

2024-02-25 21:12:10 1248 2

原创 计算机视觉入门与调优

大家好啊,我是董董灿。在 CSDN 上写文章写了有一段时间了,期间不少小伙伴私信我,咨询如何自学入门AI,或者咨询一些AI算法。90%的问题我都回复了,但有时确实因为太忙,没顾得过来。在这个过程中,我发现很多小伙伴问的问题都类似:比如如何入门计算机视觉,某某算法是做什么的,有什么作用。之前写的文章由于过于分散,不成体系,很多知识点没有串联起来。然后依托Resnet50这一经典图像分类网络,将涉及到的算法都剖析和实现一遍,最后亲自完成该神经网络的搭建,并带你完成任意图像的识别。

2024-01-04 22:16:26 1752

原创 亲身经历告诉你该如何自学编程

他因为刚上班,总是弄不清自己的税前工资以及税后到手工资的关系,总觉的到手工资和自己预想的不一样,于是和我讨论之后,他觉得自己写一个程序用来计算自己的到手工资。从家里到公司坐地铁刚好半小时,每天上下班看一个小时,坚持了 3 个月,将课程视频来回看了 6 遍,然后到公司一有闲暇时间就练习课程中的技术,3个月下来,C++就真的是很熟练了。真正的编程绝不是以上的场景。所以,如果你觉得难,你先回想一下,自己是否有过类似的经历,在学习编程过程中用所需的知识解决一些实际用到的问题,以此来锻炼自己的编程思维呢?

2024-10-07 22:59:50 1384 1

原创 什么是 dropblock 算法?

那么如图 b 所示,随机丢弃激活单元的方法,仅仅是丢弃了单个单元,剩余的绿色区域中仍然包含了原来的特征(比如耳朵、嘴巴和腿的特征),因此这种单纯的 dropout 方法并不有效。(图c),却可以直接丢掉一些特定的区域信息(比如将左上角的耳朵信息全部丢掉,或者右下角的腿的信息),从而强制剩余的神经元去学习更重要的特征。由于图像像素局部性的存在,假设绿色区域中左上角激活的为狗子的耳朵,中间部分激活的为狗子的嘴巴,右下激活的为狗子的腿。,它在训练神经网络中,可以随机地丢弃神经元,是一种可以防止网络过拟合的方法。

2024-10-06 23:16:15 844

原创 卷积层是如何学习到图像特征的?

反向传播无需纠结太多,精髓在于梯度,而梯度就是用来更新卷积核的,这个梯度你可以理解为某次前向传播过程中,利用已经学到的“特征”尝试去预测目标时得到的结果与真正目标之间的差距,然后把这个差距反向告诉卷积核,使其朝着差距更小的方向更新。类比于原始输入的 RGB 图像仅有 3 个颜色通道,你可以粗略的认为原始输入图像仅有 3 个最显著的颜色特征(每个特征通道仅有一个颜色分量),而经过卷积计算之后,输出的通道数则有成百上千个,此时卷积学到了成百上千个特征。而我这里说的“原始图像”指的是神经网络原始输入的图像。

2024-10-06 22:47:41 1268

原创 罕见 P0 故障!上交所崩了 ~

当交易量在短时间内急剧增加时,如果系统没有充分的扩展性(如无法快速增加资源或启用弹性扩展机制),会导致资源耗尽,影响系统整体性能。在股市交易时段,由于大量投资者同时提交交易请求,系统承载的并发请求量急剧增加,可能超出了现有服务器和网络设备的处理能力,导致。据说,当年百度承接春晚发红包项目时,有一堆的工程师在候场,随时准备切换资源和线路,解决可能出现的宕机问题。其实呢,引发这类故障问题的原因有很多,比如系统架构设计问题、系统的并发处理能力、网络性能等方面的问题。当然,也有可能是系统扩展性不足的原因。

2024-09-28 23:01:05 263

原创 手写代码,利用 mnist 数据集测试对比 kan 和 cnn/mlp 的效果

使用 KAN 模型对数据集进行训练,最终得到的准确度仅为 82.04%

2024-09-28 22:59:44 451

原创 教你快速完成大模型 API 的调用

该模型经过了约 1T token的中英双语1:1训练,并融入了包括监督微调、反馈自助、人类反馈强化学习等先进技术,以生成更符合人类偏好的回答。目前,该系列中最为出色的模型是 ChatGLM3-6B("6B"代表整个模型有 60 亿参数,B = Bilion,代表十亿规模的参数)。目前的所有开源大模型的使用方法都非常简单,它们都已经适配了HuggingFace 的 transfomers 库。不少同学用了很长时间的 AI 大模型了,但却从未完成过一次大模型的 API 调用。

2024-09-25 22:15:11 506

原创 如何使用 python 调用 llama3 进行对话?

为你希望下载的模型存放的目录,由于llama-3 的模型非常大,上述命令会下载大概 32 GB的数据,因此,在下载前你需要你找一个磁盘空间足够大的目录来存放。Meta 已将最新的 LLaMa3 进行了开源,因此,我们也可以方便的使用 Python 进行 LLaMa3 模型的调用和开发。需要注意的是,在下载LLaMa3 的时候,需要前往。填写一份申请,官方审核通过后,你才拥有下载 LLaMa3 的资格。的开发环境下进行,否则输出一句话都会运行非常久的时间。同样的,LLaMa3 模型的运行最好在有。

2024-09-25 22:11:17 536

原创 AI 大模型的训练过程是什么样的

因此,每给定一个单词(Token),模型都要预测下一个词,然后将预测出来的词加上原来已有的词作为新的输入,继续预测下一个词,如此反复迭代。在 GPT 等模型的训练时,如果给定上述句子作为模型的输入,是希望模型可以预测出下一个词是什么,这是模型的任务。当然上面的过程说的很粗糙,仅仅是想让大家先搞清楚自监督学习这个概念,以及实际模型训练时,模型是如何自我监督的。在这种训练模式下,模型被训练来预测给定前文的下一个词,这样,模型就能学习到文本的顺序结构和语言的生成过程。

2024-09-22 23:13:12 854

原创 国庆来了,一行 python 代码,教你为微信头像添加国旗图案

马上快到国庆了,很多同学为了表达对祖国的庆祝(或许也是为了表达对小长假的庆祝),都会把自己的微信头像换成了带有国旗的风格。这个库里会默认下载一个国旗图片,就是上面展示的那样。作为一个合格的程序员,我们不需要去其他的平台或软件上上传自己的头像来制作。我们只需要一行 python 代码,在我们自己的电脑上就可以搞定这件事情。如果你还不知道怎么去完成类似国旗风格的头像制作,那你就找对地方了。左侧是“添加国旗前”的头像,右侧为“添加国旗后”的图像。你只需要将你的头像放到和该代码同一级的文件目录下,并且。

2024-09-22 23:11:11 330

原创 用矩阵乘法的底层原理来理解“特征融合”

我们知道矩阵乘法的规则是,左矩阵的第一行乘以右矩阵的第一列,得到第一个值,第一行乘以第二列得到第二个值,...,以此类推。而在AI神经网络中,输入资源可以认为是特征,因此,在 AI 算法中,类似的矩阵乘法运算,都是对特征进行的提取和融合。与之对应的,卷积运算和全连接运算,即核心逻辑都是以权值和输入进行乘法,然后累加的操作,与上述类似。假如你是一个鸡尾酒调酒师,家里储存了很多鸡尾酒的原料,有金酒、利口酒、柠檬汁和可乐等等。按照矩阵乘法的规则,他们的结果应该是一个一行三列的矩阵,分别代表调配出来的三种鸡尾酒。

2024-08-30 21:54:23 1104

原创 使用 AI进行绘画初体验

但是 MidJourney 自身的网站使用起来较为复杂而且需要付费,这里给出一个使用 MidJourney 模型的网站,你可以来体验一下 AI 绘画的功能。AI 绘画的效果是真的不错,最近在查找AI相关技术文章时,总是会时不时的发现一些好玩的 AI 应用,而且大多数都是免费的。全程陪伴学习课程,由我亲自带你梳理知识点,深入理解AI,快速入门 AI,戳下面的链接查看相关介绍。你也可以在网站下方调节一些输出图像的参数,使输出的效果更符合你的需求。,戳下面的链接加入吧,这可能是你学习路上非常重要的一次点击呀。

2024-08-30 21:47:25 739

原创 Transformer 论文通俗解读:FFN 中的非线性表达

因此,在这类的线性变换层后面,要添加非线性的激活函数,使得整个变换不至于是线性变换,从而使得神经网络模型可以拟合成更加复杂多变的非线性系统。本文暂且不论 FFN 中添加 FC 的作用,你只需要了解在多个线性层中间一定要添加非线性层,来防止多个线性层叠加退化成一个线性层就可以了。关于 FFN 中添加 FC,也就是线性层的作用,在后面的文章中会进行详细介绍。虽然基础,但是我还是希望针对这部分内容做一个更加详细的说明,希望你可以对此有一个更深刻的认识,而不仅仅是 Transfomer 结构。

2024-07-22 17:45:28 879

原创 手把手带你从零微调大模型!

微调大模型需要非常高的电脑配置,比如GPU环境,相当于你在已经预训练好的基础上再对大模型进行一次小的训练。但是不用担心,本篇文章会使用阿里魔塔社区提供的集成环境来进行,无需使用你自己的电脑配置环境。你只需要有浏览器就可以完成。本次微调的大模型是零一万物的 Yi 开源大语言模型,当然微调其他大模型的过程和原理也有差不多。这里说明一下,阿里魔塔社区对于新用户提供了几十小时的免费GPU资源进行使用,正好可以来薅一波羊毛,学习一下大模型的微调。话不多说,直接开始。1. 账号和环境准备然后按照下面的箭头操作。

2024-07-22 17:35:46 1222

原创 爱丽丝梦游仙境,把大模型打回原形

推理能力和搜索引擎不一样,很多大模型表现的好,有时会被认为是因为大模型学习了大量的知识,而这些知识被编码存储在了大模型的权重中。然而,当研究人员让当前最先进的语言模型如GPT-3.5/4、Claude、Llama等回答这个问题时,结果却令人吃惊。如果你也希望了解AI技术,学习AI视觉或者大语言模型,戳下面的链接加入吧,这可能是你学习路上非常重要的一次点击呀。这就是“爱丽丝梦游仙境”测试,研究人员设计了一项名为“爱丽丝梦游仙境”(AIW)的测试。在如今AI无处不在的时代,许多人认为AI已经无所不能了。

2024-07-11 09:24:44 414 1

原创 Transformer 论文通俗解读:FFN 的作用

在经过前面3节关于 Transformer 论文的解读之后,相信你对提出 Transformer 架构的这篇论文有了一定的了解了,你可以点击下面的链接复习一下前3节的内容。总的来说,这篇论文虽然重要且经典,但很多关于Transformer 架构的技术细节并没有介绍的很清楚,因此读起来有些晦涩。之前的几节文章在通读这篇论文时,采用的是的方式来进行的。这么做的目的也很简单:帮助你了解这篇论文中每一部分的写作意图是什么。至于论文中没有详细阐述的技术细节内容,本专栏后续会继续完善。

2024-07-11 09:19:50 3300

原创 炸裂!GPT5 发布日期曝光, 附GPT系列模型发展历程

大家好啊,我是董董灿。作为最受欢迎的大模型之一,GPT5什么时候发布一直吊着网友们的胃口。2024年6月20日,美国达特茅斯工程学院公布了对OpenAI首席技术官米拉·穆拉蒂(Mira Murati)的采访视频。米拉在采访中透露,虽然这么说有些夸张,但博士水平意味着 GPT5 可以在某些特定任务中具有更好的表现,而非通用水平表现。也就是说,在某些特定任务中,模型更加专业,水平更高,或许是得益于模型训练中有更多的专业语料的加持。

2024-07-05 09:26:14 1261

原创 《Attention is all you need》通俗解读,彻底理解版:注意力机制的运算

最近为了撰写这部分内容,将论文又重新通读了一遍,也查阅了一些相关的资料,每阅读一遍资料都有新的收获。发现Transformer架构的设计思想是真的牛,尤其是当你尝试用数学的思想来解释该架构时。但是限于目前本人的数学功底还不够扎实(数学是一个非常严谨的学科),预计在未来会恶补一些数学知识,然后再尝试用通俗的数学知识来解析Transformer 架构的思想。本篇将继续沿着前面几篇解读论文的思路,来解读一下论文中的第3.2.1章节,对应的内容是模型结构的“注意力”部分。

2024-07-05 09:22:41 2515

原创 《Attention is all you need》通俗解读,彻底理解版:part2

在每一个block中,每个子层中都有残差连接,而残差连接(加法)要求两个输入的数据维度相同,因此作者在本段的最后一句说到,为了满足残差连接的需求,也为了使模型更加简单,所有子层输入的维度(包括Embedding层,因为Embedding的输出是MHA层的输入)和所有子层输出的维度,都是512。这是因为解码器是输出结果,只能已经输出的内容(过去)对当前输出的单词有影响,i 之后的单词的(未来)不应该对当前的输出产生任何影响。第一段内容可能是为了行文逻辑的考虑,作者引出编码器和解码器架构,为下文做铺垫。

2024-06-26 11:24:56 750

原创 《Attention is all you need》通俗解读,彻底理解版:part1

论文的摘要写的非常简洁明了。主要介绍了当时论文写作的背景,并提出 transformer 这一架构,同时给出了基于 Transformer 架构的模型在一些经典任务中性能数据。这一段是说,在写这篇论文时,已经由很多序列模型了,比如之前介绍的Seq2Seq结构,这些模型都是基于复杂的循环神经网络或者卷积神经网络而来的,并且他们都包含一个编码器和解码器。在一些表现好的模型中,还会在编码器和解码器之间引入注意力机制。

2024-06-26 11:21:18 1336

原创 裁员裁到大动脉,是一种什么体验!

今年理想汽车也开始了裁员,优化比例超18%,涉及员工5600人左右,智驾团队将减到1000人以内。即使召回开始上班,但经过这么一番折腾,员工与公司之间的信任也肯定不如从前,甚至没有信任可言。降本增效是每个当老板的人都喜欢挂在嘴边的口头禅,尤其是行业不景气,公司发展遇到瓶颈的时候。要么搞设备自动化和流程自动化,比如引入AI提效工具,这是增效,要么裁员,这是降本。现在还记得去年一些公司裁员的场景,当时可谓是哀嚎遍野,很是惨烈。你是去是留,我说了算。只能说,打工人的世界,充满了魔幻,大家好啊,我是董董灿。

2024-06-21 10:05:50 471

原创 蔚来汽车AI算法工程师,如何理解注意力?

大家好啊,我是董董灿。今天分享一个上海蔚来汽车的AI算法岗位面试经验总结帖,面试岗位为算法工程师。这次面试提到的问题,除了与实习相关内容和反问之外,面试官总共问了8个问题,看了这个面经贴,我突然想到帖子中到的很多知识点,我写的文章都提到过。比如梯度消失和梯度爆炸的原因,这一点在介绍激活函数时曾经提到过(),LSTM 的更新门的原理(除了一些较简单的算法理解之外,面试中还。正好最近我在整理和撰写注意力机制相关的文章,比如等。

2024-06-21 10:03:58 874

原创 快手面试,什么是矩阵乘法?

你可以这么理解,矩阵乘法的本质,是资源的整合和再创。我非常喜欢用下面的例子来说明这个问题。你是一个鸡尾酒调酒师,家里储存了很多鸡尾酒的原料,有金酒、利口酒、柠檬汁和可乐等等。今天家里来了 3 位客人,他们分别喜欢喝“自由古巴”、“长岛冰茶”以及“龙舌兰日出”这 3 款鸡尾酒,并向你下了单。希望你给他们调配出来各自喜欢的鸡尾酒。巧的是,这 3 款鸡尾酒的原料都是金酒、利口酒、柠檬汁和可乐。你作为一个调酒师,分分钟就把客人的爱好的鸡尾酒给调出来了。怎么做的呢?

2024-06-19 10:20:13 156

原创 美团的 AI 实习,什么是数据增强?

数据增强是一种通过对原始数据集进行变换,生成新的训练样本的技术。这些变换包括图像翻转、旋转、缩放、裁剪以及其他各种手法,通过引入这些变化,可以有效地扩充数据集的规模,提高模型的泛化能力。是不是很简单?将原始数据集做一些变换然后送给模型做训练,此时裁剪出来的图片,可能就是猫咪尖尖的耳朵和大大的眼睛,训练过程中模型依然会判断这是猫。此时,如果在送给模型一只戴着头盔的猫,即使模型不认识头盔,它也认识猫耳朵,从而识别出来这是一只猫。

2024-06-19 10:16:33 1074

原创 美团的 AI 面试有点简单

数据增强是一种通过对原始数据集进行变换,生成新的训练样本的技术。这些变换包括图像翻转、旋转、缩放、裁剪以及其他各种手法,通过引入这些变化,可以有效地扩充数据集的规模,提高模型的泛化能力。是不是很简单?将原始数据集做一些变换然后送给模型做训练,此时裁剪出来的图片,可能就是猫咪尖尖的耳朵和大大的眼睛,训练过程中模型依然会判断这是猫。此时,如果在送给模型一只戴着头盔的猫,即使模型不认识头盔,它也认识猫耳朵,从而识别出来这是一只猫。

2024-06-13 09:37:45 1785

原创 快手AI算法岗,50W年包羡慕到流泪

之前看过一本书,书中讲到我们可以把毕业的前5年时间当做“职业不断选择的过程”,在这5年的时间里,你可以有很多次机会来试错,来不断地选择适合自己的职业道路。面对高薪与内卷的局面,我一直给出的建议就是:无论环境如何,你能做的就是找到自己喜欢的工作,然后去试着做就行了,尤其是对于刚毕业的学生。任何一个全新的行业,一旦你入门之后,坚持学习2-3年,就可以对这个行业有非常深刻的认识,面对新行业,难在入门,入门之后,难在坚持。我之前也尝试过很多的职业选择道路,最近的几年稳定在了AI算法的优化方向,你可以查看。

2024-06-13 09:33:32 673

原创 本科毕业一年30万已经是人中龙凤了

大家好啊,我是董董灿。今天看到了一个关于“”的问题,我觉得很有意思,分享给大家。周围很多大佬都去深造或者工作做 CV 相关方向了,然而在网上看到一种言论,说现在学 CV 已经晚了,不适合现在入行论,想问问是这样吗。对计算机视觉方向很有兴趣,也许是跟风,并且自动驾驶等领域的确很容易让人产生兴趣。假设侥幸拿到 CV 相关的 offer,又或者是 machine learning、deep learning 相关的 offer,那么是否应该果断加入呢,因为感觉图像处理算法已经相对传统一些了。

2024-06-11 19:23:35 515

原创 基于 Transformer 的大语言模型

近年来,研究人员发现,扩大语言模型的规模不仅增强了它们的语言建模能力,而且还产生了处理传统NLP任务之外更复杂任务的新兴能力。可以看到,自注意力机制允许模型识别不同输入部分的重要性,无论距离如何,并且可以捕捉输入句子中的长距离依赖和复杂关系。特别地,在第一个块之前,使用分词器将原始输入句子转换为一系列标记,随后的嵌入层用于将标记转换为输入特征。对于每个块,它接收前一个块的输出特征作为输入,并通过每个子模块传递特征以获得输出。然后,将额外的位置嵌入添加到输入特征中,以编码每个输入标记的顺序。

2024-06-11 19:22:51 796

原创 我入门AI的学习感想

今天回答一个朋友问的问题。“我在入门深度学习的过程中,从配环境到 debug 全是坑,解决问题的时间远超跑模型的时间。这个问题真的问到我的心坎里了,多年前,我从机械硕士毕业转码搞软件开发,然后转行做深度学习算法,已有不少年了。转行的过程,就是从零开始的过程。无论是自学C++、Python这种编程技能,还是学习AI算法,还是钻研计算机体系结构,每一部分都有很多的感悟。这里重点说一下学习AI算法的经历和感受。记得第一次参加与深度学习算法的面试时,是一个小公司,面试官问我什么是权值?

2024-06-05 09:53:35 187

原创 如何理解AI模型的“注意力”?

以上图为例,当你注意到小狗的鼻子和眼睛以及右侧的耳朵(红色框标识)后,你会自然而然的认为,在小狗的左侧会有一只类似右侧尖尖的耳朵存在(黄色框标识)。在人工智能的发展中,注意力的出现是最令人兴奋的一项技术进步,并且这项技术将长期存在于AI的基础算法架构中,很难被替代。你可以观察上面的图像,然后思考一下:在观察这只狗的时候,你的注意力(眼睛观察的焦点)最开始放在了图像的什么地方?人类的视觉注意力,通常会用“高分辨率”关注自己感兴趣的区域(比如你的第一眼可能会落在上图中小狗的耳朵和鼻子上)。

2024-06-05 09:51:34 495

原创 算法岗这么卷吗?985硕士也要报培训班了

对于这些有些枯燥的概念,有些乏味的数学表达,我会尽可能说的直白和通俗易懂,打通理解Transformer的最后一公里。巧的是,下班路上刚手敲完大纲,晚上一个小伙伴来咨询学习LLM的事情,问我之前写的《五一节前吹的牛,五一期间没完成,今天忙里偷闲,给完成了。另外,现在培训机构里培训你、教你找工作的人,可能自己都没工作过,教你搞模型的人,可能自己都没实际做过业务,也仅仅会调用一些API而已。在我这里过的两个候选人,一个是哥伦比亚的,一个是清华的,还有很多简历很好但都没有过。大家好啊,我是董董灿。

2024-05-20 22:44:11 606

原创 搞懂这个例子,再也不怕词向量了

对于这些有些枯燥的概念,有些乏味的数学表达,我会尽可能说的直白和通俗易懂,打通理解Transformer的最后一公里。巧的是,下班路上刚手敲完大纲,晚上一个小伙伴来咨询学习LLM的事情,问我之前写的《五一节前吹的牛,五一期间没完成,今天忙里偷闲,给完成了。在最下面增加了water单词的可视化,可以看到在上面有一条蓝色的线从上到下贯穿,一直到water则停止消失了,这条蓝色的线或许代表的是“人类”这种信息。上面放了:queen,king,man,women,boy,girl,water(无关)的可视化结果。

2024-05-20 22:40:11 737

原创 为什么卷积可以提取特征?

巧的是,下班路上刚手敲完大纲,晚上一个小伙伴来咨询学习LLM的事情,问我之前写的《五一节前吹的牛,五一期间没完成,今天忙里偷闲,给完成了。这是因为 resnet 中有大量的设计好的卷积层,因此,大部分将 resnet 作为骨干网络的神经网络,都是把 resnet 这一部分结构当做一个图像的特征提取器来使用。可以回想一下在介绍卷积的时候,描述的卷积运算的场景是:一个窗口在图片上滑动,窗口中的数值是卷积核的参数,也就是权值。和矩阵乘法一样,卷积在每一次扫描的过程中,完成的是权值数据和输入图像的乘累加运算。

2024-05-19 22:26:22 1279

原创 图解词向量的特征

巧的是,下班路上刚手敲完大纲,晚上一个小伙伴来咨询学习LLM的事情,问我之前写的《五一节前吹的牛,五一期间没完成,今天忙里偷闲,给完成了。在很多类似的测试中,都会有许多道题来让你回答,然后从多个维度、多个方面衡量你的潜力或特质,然后给出分值,最后综合来评判你是一个什么样的人。是的,在数学模型上,衡量两个人的性格数据(这里实际上是向量)是否相似,可以使用余弦相似度的方法,这个在上一节介绍过了。如果把上述例子中的得分组成的向量看做是词嵌入向量,那么其中的数值,便是代表一个单词在各个维度特征的得分值。

2024-05-19 22:25:17 1088

原创 通俗理解向量:从One-hot 到词嵌入

巧的是,下班路上刚手敲完大纲,晚上一个小伙伴来咨询学习LLM的事情,问我之前写的《五一节前吹的牛,五一期间没完成,今天忙里偷闲,给完成了。我们学过几何,在三维坐标系下,[1, 0, 0]、[0, 1, 0]和[0, 0, 1]这三个向量是互相垂直的,也就是互相正交独立。那么二进制向量,就是里面的数字都是二进制的,像是[0, 1, 0, 0],因为在二进制里面,数字只有 0 和 1。上表竖着看,黄色的代表是猫的编码 [1, 0, 0],浅绿色代表的是狗的编码 [0, 1, 0]。

2024-05-15 17:46:49 799

原创 GPT4 是如何将文本 token 化的?

巧的是,下班路上刚手敲完大纲,晚上一个小伙伴来咨询学习LLM的事情,问我之前写的《五一节前吹的牛,五一期间没完成,今天忙里偷闲,给完成了。像GPT-3.5和GPT-4这样的模型使用的方法与旧模型(比如GPT-2)会有不同,不同的token算法对于相同的输入文本会产生不同的token序列。通过该网站工具,你可以了解一段文本如何被GPT-4模型token化的,以及文本的被token化之后的token总数是多少。需要注意的是,具体的文本token化结果与模型有关。

2024-05-15 17:44:17 383

原创 大模型的性能是真不好调啊

,正在内测更新中。另一方面,则是可以依照自家独特的模型和算法,自定义设计出更适用于自家业务的芯片结构,这样做出来的产品性能才好。在接触的模型中,有一些模型有着非常奇怪的分支结构,有些有着非常奇怪的shape,有的有着奇怪的自定义算法。这样设计出来的芯片,在使用其进行算法开发时,才能发挥出最大的硬件潜能,才能榨干芯片的每一处性能。前段时间,在某芯片上调试大模型的一个矩阵转置算法,用了很长时间,才将其性能调到可用的范围。所以啊,一个看似简单的算法,其实背后要做的事和细节太多了,模型性能调优真的很难。

2024-05-12 23:14:56 408

原创 阿里P7,绩效3.5+,年终22W

另外,据说淘天部门的员工如果绩效达到3.75以上,有6个月的年终奖,加上3000元的普调。如果当初真的去了,如我所想的那样,职位并不是自己喜欢的,还要加班加点疲于奔命,最终因为某些原因被优化,那哪里里还有心思和时间做其他事情呢?2023年阿里的年终奖,可以说中规中矩,并没有在网上激起很大的浪花,可能与近些年公司各种改制、各种改革有关。P7级别,在阿里基本都是百万年薪级别的了,正常发挥,年终22W也还算是ok,毕竟工资基数在那。最终我主动结束了倒数第二场的面试,因为职位内容和我的需求不匹配,而且还有风险。

2024-05-12 23:11:44 790

串口COM口数据转发软件

可实现电脑上两个串口之间的数据转发,将两个串口合并为一个通信信道使用。注意选择串口类型为COM。

2018-01-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除