自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

通俗易懂的 AI 技术

董咚的 AI 聚集地

  • 博客(380)
  • 资源 (1)
  • 收藏
  • 关注

原创 大模型连载8:词向量如何表示近义词?

在进行文本处理之前,文本转换为词嵌入向量是必须的,并且要转换为具有多个维度的高维向量,以此来衡量文本的语义。在GPT-4的词嵌入空间中,推荐使用余弦相似度来衡量向量的“距离”,这是因为 GPT-4 把嵌入向量标准化到了1,从而使得余弦相似度与欧氏距离在衡量向量相似性上具有一样的排名。在其他的场景下,也可以使用余弦相似度这一指标来衡量向量的相似性。比如衡量两个文本或图像是否相似,直接计算其余弦相似度,也是一种简单有效的办法。参考:^维基百科余弦相似度:董章鱼的公开 AI 空间。

2026-03-16 21:01:17 309

原创 大模型连载7:词向量的通俗理解

首先,词嵌入的作用,是将整数(这里就理解为 token ID 就好了)转换为一个固定大小的向量。这些转换过程可以通过模型的大规模训练来完成。转换完之后的向量可以捕获以及表达 token 之间的复杂关系,比如语义关系、语法关系等。这些向量通常被称为嵌入向量,用多维数据进行表示,每一维都代表 token 的一些隐含特征。举个例子,假设 cat 转换为词嵌入向量后为 [100, 200, 300]。这里是为了举例子,用了一个仅包含3个特征(通常情况下为512个特征)的向量。

2026-03-10 20:50:06 304

原创 大模型连载6:词汇表用来做文本到数值的转换

前面几节一直在介绍 token 相关的内容,相信你看到这里,对 token 肯定很了解了吧。如果对 token 本身还有其他疑问,可以在本文下留言。本节开始,进入下一步骤,由 token 到数值的转换。以上3个步骤中,每一个其背后都有重要的意义和作用。本节先介绍第一个步骤:文本到数值的转换。

2026-03-09 21:52:49 385

原创 大模型连载5:GPT4 的 token 可视化网站

在你了解了 token 的概念以及对文本进行分词的大致过程后。本节给出一个使用 GPT4 模型(当前 OpenAI 最强大的模型)拆分 token 并将拆分结果进行可视化的网站,你可以去这个网站上测试一下分词效果。

2026-03-08 10:42:59 174

原创 ‍⁡‌⁤⁤ ⁡⁢​⁢‬‬⁣​‌​​​‬​​⁡​​‍⁣‌‬‌‌​ ​⁢ ⁢​⁢‬⁤⁡⁣​​‬⁡‬⁡‌‬大模型连载4:文本 token 化的过程是怎样的

前面两节分别通过两个代码示例展示了模型将文本转换为 token 之后是什么样的,希望你可以对此有一个感性的认识。本节来简要介绍一下将一个连续的文本转换为 token 序列的大致过程,这个过程被称为,也叫。在你没了解这方面的知识之前,如果让你实现一个类似的算法,你会如何来实现呢?我想你可能最先想到便是。

2026-03-07 21:21:05 348

原创 大模型连载3:利用 GPT2 将文本 token 化

在上一节,利用 BERT 模型将一个文本进行了 token 化。那你可能会问,是不是所有的模型将同一个文本 token 化之后,结果都一样呢?这是因为不同的模型对文本进行 token 化时使用到的算法不一样。在 BERT 中用到的是 WordPiece 算法,而 GPT 系列模型将文本进行 token 化时,使用的则是 Byte-Pair Encoding(BPE)算法,这两种算法虽然不是本专栏的重点,但后面也会专门来讲解一下。

2026-03-06 22:58:48 298

原创 9、传统 CV 之图像分割(大津算法)

在图像处理和计算机视觉中,"前景"和"背景"是指图像中的两个主要部分。前景:前景是图像中引起人们兴趣或希望被重点关注的区域,通常指图像中的主要目标,或者在图像处理中你想要从图像中提取或识别的对象。背景:简单理解就是除了前景之外的其余图像区域,作为陪衬的、通常是图像中次要的区域。举个例子,上述图片一只猫在一个花园中,那么照片中的猫就是前景,而周围的花园景色就是背景。

2026-03-04 19:35:53 324

原创 AI 视觉连载8:传统 CV 之边缘检测

边缘检测是通过一些算法来识别图像中物体之间或者物体与背景之间的边界,也就是边缘。图像边缘通常是图像中灰度变化显著的地方,标志着不同区域的分界线。在一张图像中,边缘可以是物体的实际边界,也可以是纹理、颜色或亮度等特征变化比较明显的位置。边缘检测有助于提取图像的结构信息,是许多计算机视觉和图像处理任务的基础,例如物体识别、图像分割和目标跟踪。比如下面这张图片,我用红笔粗略的画出了一些物体的边缘,猫耳朵和背景很明显的边缘,椅子和背景以及椅子和猫咪的边缘等。

2026-03-03 22:19:41 351

原创 大模型连载2:初步认识 tokenizer 的过程

在上一节,我们介绍了 token 的概念。你可以这么认为, token 是自然语言处理场景(如文本生成、AI聊天)下,AI 模型能够处理的最小单位。在计算机视觉中,模型以像素为单位来处理图像像素之间的关系,而语言模型则是以 token 为单位理解 token 之间的关系。下面通过一个小例子,来展示一下语言模型是如何将一段文本转换为 token 的,以及模型将文本转换为 token 之后是什么样子。通过这个例子,希望你可以对模型处理 token 的过程有一个感性的认识,。

2026-03-02 21:47:31 768

原创 大模型连载1:了解 Token

在计算机相关领域中,token 通常是指一串字符或符号。比如微信公众平台的密钥,就被称作一个 token,其实就是一长串的字符串。在人工智能领域,尤其是自然语言处理(Natural Language Processing, NLP)领域中, “token” 指的是处理文本时所能处理的最小单元或基本元素。它可以是一个单词、一个词组、一个标点符号、一个子词或者一个字符。

2026-03-01 22:55:04 842

原创 AI 视觉连载7:传统 CV 之高斯滤波实战

本节一起绘制一个可视化的高斯滤波器,同时对一个彩色图像增加高斯噪声,最后通过一个高斯滤波器对图像进行降噪处理。就像上节说的那样,滤波不是学习重点,下面通过实操了解下原理即可。

2026-02-27 22:45:04 331

原创 零基础带你用 AI 搞定命令行

其他再复杂的任务,只要你能用“人话”描述清楚,这个 copilot cli 就可以帮你搞定,包括但不限于:文件整理(移动、删除)、代码修改、项目测试以及 debug 等,这些复杂功能你可以边用边发掘。你可以把它当做一个能听懂人话的命令行管家,有了它,你不用再记那些绕口的命令和参数,说句人话,就可以让这个 AI Agent 帮你搞定所有的终端操作。第一次打开时,会问题是否信任当前目录下的所有文件,一般选择 Yes 就可以,这样 copilot cli 工具就可以拥有对该目录下文件的操作权限。

2026-02-27 21:22:12 1041

原创 AI 视觉连载6:传统 CV 之高斯滤波

这一节在上一节的基础上,再进阶一下,来了解一下什么是高斯滤波。首先,如上一节所说,均值滤波是利用一个窗口在图片上滑动,每次都计算窗口内能看到的像素的平均值,然后将平均值作为滤波的输出,从而可以起到平滑图像、去噪点的作用。有没有发现,此时并没有特别说明这个窗口是什么,以及窗口是否带有参数。在介绍高斯滤波之前,进一步说明一下均值滤波的这个窗口。上图是均值滤波示意图,中间一个 3x3 的正方形即为均值滤波的窗口。

2026-02-25 22:11:39 236

原创 AI 视觉连载5:传统 CV 之均值滤波

估计在很多场合你都听说过滤波的概念。图像滤波是图像处理中最常见的一种操作,它的主要目的是改变图像中的某些特征,比如去除图像中的噪声。滤波操作的是通过一定的数学算法来完成的,最常见的滤波方式包括均值滤波、中值滤波和高斯滤波。从名字就可以看出,均值滤波是取一些像素值的平均值作为滤波的输出,中值滤波便是取一些像素的中值作为滤波后的输出。高斯滤波就稍微复杂一些,人们特意设计了一个符合高斯分布的滤波器,完成对图像像素的高斯滤波运算。以均值滤波为例,它是取图像中的哪些像素值来计算平均值呢?

2026-02-24 21:29:57 319

原创 AI 视觉连载4:YUV 的图像表示

上一篇描述了 RGB 这种彩色图像表示,这一节我们再看另一种图像表示:YUV。YUV 和 RGB 不同,区别主要在于颜色信息的存储和传输上。

2026-02-12 20:47:52 34

原创 AI 视觉连载3:RGB与通道

在的最后,给出了一个由彩色图片转成灰度图的示例,并且通过获取了图片的格式:彩色图片获取到的格式为 RGBA,灰度图为 L。这一节再介绍一下 RGB 图片以及通道的概念。举个例子——在很多时候,对AI神经网络中的一些算法做工程化实现,或者做性能优化,除了关注算法本身之外,还会关注数据存储格式。一般在 pytorch 中(一个AI模型框架),数据的存储格式 NCHW, C指代的就是通道(channel), 如此一来,对于需要在通道维度做归一化(如 reduce)的算法,是很不友好的。

2026-02-11 23:51:09 859

原创 AI元年过去了

现在 Agent 的能力,毫不夸张的讲,完全可以替代中等水平程序员,有了 AI,一个人同时做多件事也成为了可能。写这个程序的过程中,AI 大概贡献了 30% 的代码量,并且程序的基础框架是 AI 搭建的。2025年的时候很多人说是AI编程的元年,没错。第一件事,是我花了大概3天的时间,写了一个文档管理程序,用来管理我多如牛毛的文档。AI 编程的质量随着 AI 模型能力的提升,早已经比 2025 年年初大了一大截。在未来徐徐展开的 AI 纪年中,最先而且最容易被替代的,就是程序员。

2026-02-11 17:55:24 327

原创 AI 视觉连载2:图像识别之灰度图

上一篇文章中说到:像素是计算机视觉任务中的原材料。很多图像处理任务以像素的局部性为基础,在不同尺度下完成图像特征的提取。你可以这么理解这些图像的特征,小的特征可能为图像的细节,大的则为图像轮廓。现在我们来了解一种十分简洁但非常高效的图像表示方法——灰度图。了解灰度图,有助于我们更好的了解图像的特征。灰度图是一种只包含亮度信息而不包含颜色信息的图像。在灰度图中,每个像素的亮度通过一个灰度级别来表示,通常用整数值表示,范围从0(黑色)到 255(白色)。解释一下为什么是 0 - 255。

2026-02-09 21:10:24 73

原创 AI视觉连载1:图像识别之像素

今天就先开个头,从像素说起,说到了像素具有局部连接性的,人眼识别图像也是通过获取像素的局部连接性信息来完成的。幸运的是,卷积这一算法,可以很好的模拟这一过程。最后,为了使计算机更高效的处理图片数据,引出NHWC的图片数据表示方法,所以,之后我们说图片,不仅仅局限于图片的长和宽,还多了一个维度信息,那就是channel。下一篇会继续,聊聊图像的色彩空间。为什么有了RGB,还需要YUV?什么时候用RGB, 什么时候用YUV?以及图像压缩对于深度学习来说,意味着什么?

2026-02-08 22:15:38 42

原创 适合小白的 DeepSeek 基本原理介绍

昨天 DeepSeek 发布了一篇文章,介绍 DeepSeek AI 大模型的基本原理和训练相关的知识。文章的内容写的比较通俗易懂,比较适合想“粗略地了解” DeepSeek 大模型技术的朋友。我将其中一部分内容摘抄整理了一下,希望可以帮助到想了解 DeepSeek 甚至 AI 大模型技术的朋友。

2025-09-02 08:37:30 771

原创 5分钟搞懂大模型微调的原始能力退化问题

微调是指在一个已经训练好的大模型基础上,用特定领域的数据再重新进行训练,让它更适应某个具体任务。所以说,微调本质上也是一种“训练”的过程。比如,你拿一个已经预训练好的语言模型,喂给它一堆法律文档,想让它变成“法律专家”;或者喂给他一些医疗数据,让它学会回答医学问题。这个过程其实就是在教一个“通用的语言模型”重点强化某一技能。模型的原始能力呢,其实就是大模型在微调之前具备的通用的知识和技能。

2025-08-27 21:18:03 1168

原创 5分钟搞懂什么是窗口注意力?

在介绍窗口注意力之前,我们先简单了解一下注意力机制。当你在阅读一篇文章的时候,你的眼睛会自动聚焦在句子的关键词上,并且还会自动忽略不重要的部分。这就是人眼或人脑的注意力机制。而大模型的注意力机制也是模仿了这种行为,让模型在处理数据时“关注”更重要的部分,而不是一视同仁地处理所有信息。那传统注意力和窗口注意力有什么区别呢?我们看一个“生成一篇关于周末计划的文章”的场景——假设我们用AI模型来生成一篇500字的文章,主题是“我的周末计划”。模型需要根据上下文和提示词生成连贯的句子。

2025-07-08 23:37:05 1106

原创 学 AI 大模型你可以这么选配电脑...

比如会跑传统的 CV 模型,像是 yolo 系列的,也会跑基于 transformer 架构的大语言模型,比如 Qwen 系列,也会有文生图的模型,比如 StableDiffusion 系列等。另外,你查询的 128GB+2TB 的配置,确实可以同时运行多个大模型,比如 3-4 个 32B 的大模型也是有可能的,2T的存储也差不多够用了。除了上面表格给出的内存配置之外,还有一点需要注意的是,如果要使用自己的电脑运行大模型,除了关注电脑的内存大小之外,还要看电脑的算力如何。

2025-07-03 11:01:40 1697

原创 Transformer 通关秘籍12:什么是 Seq2Seq 模型?

Seq2Seq (Sequence-to-Sequence,序列到序列) 是一种用于处理序列数据的神经网络结构。序列数据指的是有一定先后关系的数据,比如一段文字或者一段语音,都可以认为是序列数据,处理这种数据的模型就可以认为是 Seq2Seq 模型。序列任务的应用场景有很多,比如机器翻译就是最典型的场景。对于机器翻译来说,输入是一种语言,输出是另一种语言,且输入和输出的语言长度不是固定的,而是根据实际翻译效果变化的。就像上面的例子,输入是 7 个文字,而输出只有 3 个英文单词。

2025-06-09 10:31:31 513

原创 Transformer 通关秘籍11:Word2Vec 及工具的使用

Word2Vec 可以非常有效的创建词嵌入向量,你可以把它理解为是一个算法模型,也可以理解为是一个工具包。它 2013 年由 Google 推出,自问世以来,一直被广泛的应用在自然语言处理的词嵌入向量的表达过程中,它可以完成文本到词向量的映射,同时保留文本在向量空间的语义关系。关于文本在向量空间的语义关系,可以参考10、词向量运算:queen=king-man+wowem的内容。

2025-05-28 10:25:45 1178

原创 Transformer 通关秘籍10:词向量运算:queen=king-man+wowem

经过前面的介绍,相信你搞懂了词嵌入向量所代表的是单词在高维空间的特征表示了。在学习词嵌入向量的过程中,一个最著名的理解词嵌入向量在高维数学空间的例子,莫过于实现 queen = king - Man + Woman 的数学运算了。本节将从这个例子出发,揭示词向量背后的隐藏含义,并在最后附上通过GoogleVec的预训练模型来实现上述词向量运算的Python代码。本文在撰写时参考了很多国外的优秀博客,参考链接在文章最后。

2025-05-27 20:42:29 1060

原创 Transformer 通关秘籍9:词向量的数值实际上是特征

在前面的文章中,大概花费了几节的篇幅,详细介绍了 token 以及词嵌入向量的概念。到这里,你应该可以理解了:在计算机的眼里,所有的文本首先都要经过分词转换为 token ,然后再使用词嵌入算法将 token 转换为词向量。如果还有不理解的相关内容,可以返回前述几节再详细阅读一下,或者在本节下留言。本节将通过一个例子,来帮你更加通俗的理解词嵌入向量代表的含义:实际上,词向量中的数值,代表的是单词的语义在各个维度上的特征。

2025-04-03 10:07:41 833

原创 Transformer 通关秘籍8:词向量如何表示近义词?

在进行文本处理之前,文本转换为词嵌入向量是必须的,并且要转换为具有多个维度的高维向量,以此来衡量文本的语义。在GPT-4的词嵌入空间中,推荐使用余弦相似度来衡量向量的“距离”,这是因为 GPT-4 把嵌入向量标准化到了1,从而使得余弦相似度与欧氏距离在衡量向量相似性上具有一样的排名。在其他的场景下,也可以使用余弦相似度这一指标来衡量向量的相似性。比如衡量两个文本或图像是否相似,直接计算其余弦相似度,也是一种简单有效的办法。

2025-04-02 19:32:49 891

原创 Transformer 通关秘籍7:词向量的通俗理解

首先,词嵌入的作用,是将整数(这里就理解为 token ID 就好了)转换为一个固定大小的向量。这些转换过程可以通过模型的大规模训练来完成。转换完之后的向量可以捕获以及表达 token 之间的复杂关系,比如语义关系、语法关系等。这些向量通常被称为嵌入向量,用多维数据进行表示,每一维都代表 token 的一些隐含特征。举个例子,假设 cat 转换为词嵌入向量后为 [100, 200, 300]。这里是为了举例子,用了一个仅包含3个特征(通常情况下为512个特征)的向量。

2025-04-01 14:59:42 713

原创 Transformer 通关秘籍6:词汇表:文本到数值的转换

前面几节一直在介绍 token 相关的内容,相信你看到这里,对 token 肯定很了解了吧。如果对 token 本身还有其他疑问,可以在本文下留言。本节开始,进入下一步骤,由 token 到数值的转换。以上3个步骤中,每一个其背后都有重要的意义和作用。本节先介绍第一个步骤:文本到数值的转换。

2025-03-31 10:51:51 1139

原创 一文学会 Qwen2-0.5B+Lora+alpaca_zh 微调实战,附完整可运行源代码

预训练大模型在训练过程中,虽然学到了很多通用知识,但是很多时候,大模型本身并不能在专业领域表现得非常好。比如你让 Qwen 模型回答“量子力学中的叠加态是什么”,它可能会给出一个笼统的解释,但要是让模型严格按照某一格式(比如论文格式)回答时,可能就不太行。除非你在上下文聊天中给他一些例子让他先自我学习。这也被称为“上下文学习能力 + Few-shot”的方式,但这并不改变模型的本质。一旦你切换了与模型聊天的上下文,模型又会恢复到它原来的样子。

2025-03-27 19:49:13 960

原创 Transformer 通关秘籍5:GPT4 模型的 tokenization 的可视化网站

在前面几节,你了解了 token 的概念以及对文本进行分词的大致过程后。本节给出一个使用 GPT4 模型(当前 OpenAI 最强大的模型)拆分 token 并将拆分结果进行可视化的网站,你可以去这个网站上测试一下分词效果。网址:https://platform.openai.com/ tokenizer。

2025-03-27 10:10:40 833

原创 Transformer 通关秘籍2:利用 BERT 将文本 token 化

前面两节分别通过两个代码示例展示了模型将文本转换为 token 之后是什么样的,希望你可以对此有一个感性的认识。本节来简要介绍一下将一个连续的文本转换为 token 序列的大致过程,这个过程被称为分词,也叫 tokenization。在你没了解这方面的知识之前,如果让你实现一个类似的算法,你会如何来实现呢?我想你可能最先想到便是使用空格来进行分词。

2025-03-26 16:39:17 949

原创 Transformer 通关秘籍3:利用 GPT2 将文本 token 化

在上一节,利用 BERT 模型将一个文本进行了 token 化。那你可能会问,是不是所有的模型将同一个文本 token 化之后,结果都一样呢?当然不是。这是因为不同的模型对文本进行 token 化时使用到的算法不一样。在 BERT 中用到的是 WordPiece 算法,而 GPT 系列模型将文本进行 token 化时,使用的则是 Byte-Pair Encoding(BPE)算法,这两种算法虽然不是本专栏的重点,但后面也会专门来讲解一下。

2025-03-25 07:56:48 567

原创 Transformer 通关秘籍2:利用 BERT 将文本 token 化

在上一节,我们介绍了 token 的概念。你可以这么认为, token 是自然语言处理场景(如文本生成、AI聊天)下,AI 模型能够处理的最小单位。在计算机视觉中,模型以像素为单位来处理图像像素之间的关系,而语言模型则是以 token 为单位理解 token 之间的关系。下面通过一个小例子,来展示一下语言模型是如何将一段文本转换为 token 的,以及模型将文本转换为 token 之后是什么样子。

2025-03-24 10:47:45 668

原创 利用 Resnet50 微调图像分类模型,完成宠物数据集的识别,附源代码。。

微调其实很简单,就是用一个已经预训练过的模型(预训练模型),稍微调整一下模型中某些层的权值,使其可以在新的任务上表现的更好。ResNet 本身是一个深度卷积神经网络模型,这个模型在 ImageNet 数据集(包含 1000 种物品)上已经训练过了。所以,我们可以认为,这个模型已经学会了图像识别的基础技能,比如怎么识别图像的边缘、颜色和形状等。如果我们想用它来进一步识别宠物,其实不用从零开始训练,在这个预训练模型的基础上进行微调,才是一个更好地选择。

2025-03-18 15:27:10 818

原创 利用 Resnet50 重新训练,完成宠物数据集的识别,附源代码。。

ResNet50 是一个深度卷积神经网络,包含 50 层,设计用来处理图像分类任务。它在 ImageNet 数据集上表现优异,能识别 1000 种物体。我们今天的目标是重新训练它,让它学会识别新的类别——37 种宠物。选择 ResNet50 的理由很简单——成熟的结构,它已经被广泛验证,适合大多数图像分类任务。开箱即用:PyTorch 提供了现成的实现,省去自己设计的麻烦。高效性:即使从零开始训练,也能得到不错的结果。下面,我们将训练过程拆成几个关键步骤,逐步讲解。

2025-03-18 15:16:58 1688

原创 Transformer 通关秘籍1:什么是 token?

在计算机相关领域中,token 通常是指一串字符或符号。比如微信公众平台的密钥,就被称作一个 token,其实就是一长串的字符串。在人工智能领域,尤其是自然语言处理(Natural Language Processing, NLP)领域中, “token” 指的是处理文本时所能处理的最小单元或基本元素。它可以是一个单词、一个词组、一个标点符号、一个子词或者一个字符。

2025-03-09 11:29:51 968

原创 一文看懂 Claude 3.7 Sonnet,为什么是第一个融合推理模式的 AI 模型

AI 生成答案时,通常会消耗“计算资源”,这个计算过程可以看作是“AI 在思考”。Claude 3.7 Sonnet 允许开发者设定 AI 思考的时间上限,也就是可以控制 AI“思考多久”再输出答案。快速模式(短时间思考):适用于客户服务、普通对话等对速度要求较高的任务。深度模式(长时间思考):适用于数学推理、编程、科学计算等需要精准性的任务。N=500:AI 仅消耗 500 个 token,适用于快速回复。N=10,000。

2025-02-25 10:52:25 1916

原创 DeepSeek 技术原理大揭秘,爆肝 10 小时,一篇就够!(1/3)

DeepSeek-R1 的训练过程也类似,如果直接用强化学习(RL)进行训练,那么 AI 一开始就会像一个“什么都不会的孩子”,不断犯错,生成一堆毫无逻辑的答案,甚至可能陷入无意义的循环。所以,可以认为 DeepSeek-R1 是在 R1-Zero 的基础上,通过额外的训练步骤优化了推理质量,避免了重复回答、提高了可读性,并且能更好地对齐人类偏好。可以看出,DeepSeek-R1 通过冷启动数据显著提升了数学推理、代码推理等任务的准确率,并且在生成答案的可读性上远超 DeepSeek-R1-Zero。

2025-02-06 10:16:57 2717 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除