Ksmile、-CSDN博客

任务目标：让小车利用左右移动的加速冲上山坡。观测空间：描述环境状态的值范围和维度。是一个长度为 2 的数组，表示小车的位置和速度。类型为Box，即连续值。动作空间：智能体可以执行的动作集合。动作有 3 种，分别为向左加速、保持不动和向右加速。类型为Discrete，即离散值。pass"""基于观测值决策动作"""# 决策规则（利用经验公式）action = 2 # 向右加速else:action = 0 # 向左加速"""学习功能（本例中未实现）"""pass环境操作方法：重置环境。

2024-12-03 17:14:16 894

原创 leetcode刷题笔记——122.买卖股票的最佳时机 II

给定一个整数数组prices，其中prices[i]表示某支股票第i天的价格。在这个问题中，你可以在任意一天决定购买和/或出售股票，但在任何时候最多只能持有一股股票。你也可以在同一天购买后立即出售。目标是返回你能获得的最大利润。

2024-11-01 18:44:16 637

原创大规模语言模型：从理论到实践（1）

大规模语言模型（Large Language Models，LLM）是由包含数百亿以上参数的深度神经网络构建的语言模型，采用自监督学习方法通过大量无标注文本进行训练。自2018年以来，多个公司和研究机构相继发布了多种模型，如BERT和GPT，并在自然语言处理任务中取得了显著的成果。尤其是2022年11月发布的ChatGPT，引发了广泛关注，使得用户能够通过自然语言与系统交互，完成多种任务，包括问答、分类、摘要、翻译和聊天等。本文主要介绍大规模语言模型的基本概念、发展历程和构建流程。

2024-11-01 18:05:36 1700 2

原创蘑菇书（EasyRL）学习笔记（2）

当智能体能够观察到环境的所有状态时，称为完全可观测环境。

2024-10-31 21:32:39 1221

原创 leetcode刷题笔记——121.买卖股票的最佳时机

输入：输出：解释：在第 2 天买入（价格 = 1），在第 5 天卖出（价格 = 6），最大利润 = 6 - 1 = 5。输入：输出：解释：没有交易完成，最大利润为 0。卖出价格必须高于买入价格。不能在买入前卖出股票。这是最简单且高效的解法，通过一次遍历数组来计算最大利润。初始化变量：用于记录当前最低的股票价格，初始值为正无穷。用于记录最大利润，初始值为 0。遍历价格：对于每一天的价格，更新最低价格。计算当前价格与最低价格的差值（即潜在利润），如果这个值大于当前的，则更新。返回结果：遍历结束后返回

2024-10-31 20:10:06 485

原创 leetcode刷题笔记——15.三数之和

给定一个整数数组nums，判断是否存在三元组i!= ji!= k且需要返回所有和为 0 的三元组，且这些三元组不能重复。

2024-10-29 20:00:08 752

原创 Learning to Break the Loop: Analyzing andMitigating Repetitions for Neural Text Generation（论文阅读）

具有标准的基于最大化的解码的模型会陷入冗余的连续重复中，如图1所示，该模型对连续的两级重复的偏好比单词或短语级更强，而人类语言的连续两级重复较少，这表明人类语言和生成的文本之间存在差异。现有的减少重复的方法可以分为基于解码和基于训练的方法。基于解码的方法通过软或硬n-gram块来纠正这些问题。图1：Wikitext-103开发集上人类句子与模型生成的统计数据。

2024-10-29 18:07:37 1105 1

原创蘑菇书（EasyRL）学习笔记（1）

强化学习的关键特征在于试错探索、延迟反馈、时间关联的样本，以及智能体通过与环境的交互不断优化自身行为。这与监督学习依赖独立同分布数据、标签驱动的明确反馈机制截然不同，也使得强化学习在实践中更加复杂和具有挑战性。

2024-10-18 11:16:07 1069

原创 RAG（检索增强生成）面经（1）

MRR更关注第一个相关结果的位置，适合需要快速找到答案的场景。Hits Rate则关注前k个返回结果中是否包含相关文档，适合衡量系统在给定返回数量内找到相关文档的能力。NDCG则进一步关注结果的排序和相关性，是衡量整体检索质量的综合性指标。

2024-10-15 20:53:32 1269

原创动手学LLM（ch3）——编码注意力机制

在ch2中，你学习了如何准备用于训练 LLM 的输入文本。这涉及将文本拆分为单独的单词和子单词标记，这些标记可以编码为LLM的向量表示，即所谓的嵌入。在本文中，我们现在将研究 LLM 架构本身的一个组成部分，即注意力机制。如下图所示注意力机制是一个综合性的话题，这就是为什么我们用一整篇文章来讨论它。我们将在很大程度上孤立地看待这些注意力机制，并在机制层面上关注它们。在后面的内容中，我们将围绕自注意力机制对 LLM 的其余部分进行编码，以查看它的实际效果并创建一个模型来生成文本。

2024-10-10 21:00:53 411

原创动手学LLM（ch2）——文本数据处理

当前，词嵌入的生成有多种算法和框架，其中Word2Vec是早期和流行的选择，它通过预测上下文生成词嵌入，基于相似上下文中词的相似含义。以GPT-2和GPT-3为例，嵌入大小根据模型变种变化，最小的GPT-2和GPT-3使用768维，而最大的GPT-3使用12,288维，这反映了性能与效率之间的权衡。注意，在进行文本标记化时，如果输入文本中的单词不在词汇表中，例如 "Hello"，则会产生错误。需要注意的是，不同的数据格式需要各自专用的嵌入模型，例如，针对文本设计的嵌入模型不适用于音频或视频数据。

2024-09-27 13:30:39 1276 1

原创 AIGC学习笔记—minimind详解+训练+推理

这个开源项目是带我的一个导师，推荐我看的，记录一下整个过程，总结一下收获。这个项目的slogan是“大道至简”，确实很简。作者说是这个项目为了帮助初学者快速入门大语言模型（LLM），通过从零开始训练一个仅26MB的微型语言模型MiniMind，最快可在3小时内完成。降低学习LLM的门槛，让更多人能够轻松上手。MiniMind极其轻量，约为GPT-3的1/7000，适合普通个人GPU进行快速推理和训练。

2024-09-27 13:30:27 4580 3

原创随记——机器学习

本来有个500块钱的单子，用机器学习做一个不知道什么鸟的识别，正好有数据集，跑个小项目，过一下机器学习图像识别的流程，用很短的时间记录下来.....42 常被用作随机数生成的“宇宙的终极答案”，这个数字在编程和数学中有一种幽默的文化象征。实际上，你可以选择任何整数作为种子，使用相同的种子将得到相同的划分结果。因此，选择42只是一个约定，任何其他整数都可以达到相同的效果。import osimport cv2# 定义数据集的路径。

2024-09-26 17:47:44 938

原创动手学LLM（ch1）

大型语言模型（LLM）是基于深度神经网络的神经网络，旨在理解和生成类人文本。它们通过在海量文本数据上训练，掌握语言的上下文和结构，具有预测下一个单词的能力。LLM采用transformer架构，能够选择性关注输入的不同部分，从而处理语言的细微差别和复杂性。由于具备生成文本的能力，LLM也被视为生成式人工智能（GenAI）的一种形式。与传统机器学习不同，深度学习不需要人工提取特征，能够自动识别数据中的复杂模式，广泛应用于各种自然语言处理任务。

2024-09-26 10:54:24 494

原创 AIGC学习笔记—LLM（前言）

大语言模型本身我不是很了解，但是掌握一些基础的知识点，由于要准备某个公司的二面，所以浅学一下这个技术，也是边摸索边学习......首先，我先简单的解释一下大模型，大模型是指具有大规模参数和复杂计算结构的机器学习模型，通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。其设计目的是提高模型的表达能力和预测性能，能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用，包括自然语言处理、计算机视觉、语音识别和推荐系统等。

2024-07-08 14:43:31 1245

原创力扣刷题笔记

输入：head = [1,2,3,4,5] 输出：[5,4,3,2,1]输入：head = [1,2] 输出：[2,1]输入：head = [ ] 输出：[ ]

2024-03-04 01:19:29 1304

原创 AIGC学习笔记——DALL-E2详解+测试

DALLE2提出了一个两阶段模型，利用类似CLIP的对比模型学习到的图像表示。第一阶段是一个先验模型，根据文本描述生成CLIP图像嵌入；第二阶段是一个解码器，根据图像嵌入生成相应的图像。我们发现，通过明确生成图像表示，可以提高图像多样性，同时最小程度地损失真实感和描述相似性。我们的解码器在图像表示的条件下，能够产生保留其语义和风格的图像变体，同时变化了图像表示中缺少的非关键细节。此外，CLIP的联合嵌入空间使得可以通过语言引导图像操作，实现零-shot学习。

2024-02-24 01:31:09 2693 2

原创 AIGC学习笔记——CLIP详解加推理

小辉问：能不能解释一下zero-shot?小G答：零次学习（Zero-Shot Learning，简称ZSL）假设斑马是未见过的类别，但根据描述外形和马相似、有类似老虎的条纹、具有熊猫相似的颜色，通过这些描述推理出斑马的具体形态，从而能对斑马进行辨认。零次学习就是希望能够模仿人类的这个推理过程，使得计算机具有识别新事物的能力。标准图像模型联合训练一个图像特征提取器和一个线性分类器来预测某些标签，而 CLIP 联合训练图像编码器和文本编码器来预测一个 batch 的 (图像, 文本) 训练示例的正确配对。

2024-02-22 16:57:52 1817

原创春招面试准备笔记——过拟合和欠拟合

过拟合是指模型在训练过程中过于复杂，拥有过多的参数，以至于在训练数据集上表现良好，但在未见过的测试数据上表现很差的现象。这种情况下，模型可能只是“死记硬背”了训练数据的特征和噪声，而没有真正学习到数据的普遍规律。例如，考虑一个简单的多项式拟合问题，如果使用了高阶多项式拟合数据，模型可能会过于灵活，完美地拟合了训练数据，但对于新的、未见过的数据，其预测性能却很差。欠拟合是指模型在训练过程中过于简单，参数过少，以至于无法很好地拟合训练数据的真实分布。

2024-02-20 16:27:41 1203

原创春招面试准备笔记——NMS（非极大值抑制）算法

NMS（非极大值抑制）算法非极大值抑制是用于减少物体检测算法中重叠边界框或区域的数量的技术。通过对每个类别的检测框按置信度排序，然后逐个遍历，保留置信度最高的框，并抑制与其重叠且置信度低的框，从而得到更准确和简洁的检测结果。

2024-02-20 15:58:21 1128

原创 slam系统的流程图

2024-02-19 18:20:26 700

原创 ABINet原理讲解以及运行

OCR技术经历了是从传统方法到深度学习方法的一个过程，所以在这里我也简述一下传统的OCR技术方法。传统OCR方法在简单场景下效果良好，但在复杂场景、不同字体、光照条件变化等情况下可能面临挑战。近年来，随着深度学习的发展，基于神经网络的端到端OCR系统逐渐崭露头角，取得了在多种场景下更优越的性能。这是一个端到端深度学习场景文本识别网络，利用语言模型帮助场景文本识别，提出了一种基于双向特征表示的双向完形填空网络语言模型（BCN），重点解决低质量图像的文本识别问题。

2024-02-19 18:13:19 3143 1

原创 DBNet详解及训练ICDAR2015数据集

在这篇论文之前，文字检测算法主要分为两类：基于回归的方法和基于分割的方法。基于分割的方法通常涉及以下流程，如下图蓝色箭头所示：首先，通过网络输出图像的文本分割结果，即概率图，其中每个像素表示是否属于正样本的概率。然后，通过使用预设的阈值将分割结果图转换为二值图。最后，通过一些聚合操作，例如连通域分析，将像素级的结果转换为最终的文本检测结果。然而，由于涉及使用阈值来判定前景和背景的不可微分操作，因此这一部分流程无法被直接放入网络中进行训练。所以本文引入了一种新的方法。

2024-02-05 14:11:45 2614 1

原创 PSENet详解+代码解释+测试

5、这个过程由于我用的都是新版的环境，以及自定义的数据集，等等所以改的地方比较多，有问题可以评论区问（自己的笔记本只有一块显卡，超级慢，但是代码支持多块显卡，我用的公司服务器4块显卡同时训练，效果还行）上面两个是多边形Pn和Pi之间的间距计算和缩放比例计算公式，其中Area()表示多边形的面积，Perimeter()表示多边形的周长，参数m和n是算法的超参数，分别取值为0.5和6。二、BFS的关键点是确保节点按照它们的距离从起始节点排列，即先访问距离起始节点为1的节点，然后是距离为2的节点，以此类推。

2024-02-02 18:27:47 2166 2

原创 Seq2Seq原理讲解以及实战练手

在训练时，解码器的输入是已知的目标序列（ground truth），而在推理阶段（生成阶段），解码器的输入是其自己先前生成的元素。这一层的输出将作为后续的输入提供给 GRU。它接受当前时刻的输入和先前时刻的隐藏状态，并生成当前时刻的输出和新的隐藏状态。线性输出层（out）：将 GRU 层的输出映射到最终的输出空间，这里是对应词汇表的大小（5992），用于预测下一个标签的概率分布。注意力结合层（attn_combine）：将注意力权重应用于编码器的输出，以加权求和的方式结合编码器的输出和当前解码器的输入。

2024-02-01 16:56:02 3819

原创 manifold-distillation蒸馏cait_s24_224运行(demo)

-teacher-path /data2/xuzhen8/yzh/projects/manifold-distillation/teacher_model/cait_s24_224.pth: 指定教师模型的路径。--output_dir /data2/xuzhen8/yzh/projects/manifold-distillation/output: 指定输出目录，训练过程中的日志、模型检查点等结果将保存在这个目录中。--distillation-type soft: 指定知识蒸馏的类型，这里是软蒸馏。

2024-01-30 18:22:34 468

原创文本检测学习笔记_CTPN

整体上，CTPN通过整合卷积和双向LSTM网络，有效地检测图像中的文本提议，并通过后续的处理步骤完善最终的文本区域。这种结合空间和序列信息的方法使得CTPN能够更好地理解文本序列的依赖关系，例如，通过BLSTM的双向学习，模型可以更全面地感知图像中文本的上下文信息，从而更准确地生成等宽的文本提议，有效地检测自然场景图像中的文字区域。通过与实际目标框的交并比，模型可以学习调整这些Anchor的位置和形状，提供多样性的候选框，从而更有效地捕捉不同尺寸和形状的目标。RPN 是用于生成文本区域提议框的部分。

2024-01-30 18:18:12 1179

原创 GroundingDINO运行教程

解决警告：到报警告的代码上，更改代码为 return _VF.meshgrid(tensors, **kwargs, indexing="ij")解决办法：由于服务器不能科学上网，所以不能在线下载bert预训练模型，在项目根目录运行 git clone。还有两个警告没有解决，但是不影响程序运行，还有下面的问题，我没遇到过，但是也注意一下。，更改groundingdino/util/get_tokenlizer.py代码。后续会出这篇论文的详解和训练代码和教程.......请关注一下。

2024-01-26 17:38:17 3964

原创知识蒸馏学习笔记-manifold-distillation

现在，我们希望通过训练一个较小的学生网络，使得学生网络也能输出类似的概率分布。这种蒸馏的过程有助于提高学生网络的性能，尤其是在资源受限的情况下，通过借助大模型的知识来训练小模型，实现性能的平衡。总体而言，patch之间的关系被认为是包含了图像语义信息的一种表达方式，因此通过学习这种关系，可以有效地捕捉到图像中的特征和结构，提高了蒸馏方法的性能.与其他适用于视觉transformer的蒸馏方法相比，该方法更充分利用了教师网络所携带的信息，不要求教师网络和学生网络的特征维度对齐，因此具有较高的灵活性。

2024-01-25 20:43:29 1218

原创 MaskFormer-Mask2Former-MpFormer详解

总的来说,原来实例语义分割一般来说使用在per-pixel分类.然而实例分割一般使用mask classification.但是在本文中本文作者的观点是：mask classification完全可以通用，即可以使用完全相同的模型、损失和训练程序以统一的方式解决语义和实例级别的分割任务。

2024-01-25 03:13:42 4693 2

原创数据结构基础知识——树和树的基本操作

若一个结点有子树，那么该结点称为子树根的"双亲"，子树的根是该结点的"孩子"。在图一中，B、H是A的孩子，A是B、H的双亲。2、斜树: 所有节点都只有左子树的二叉树叫做左斜树，所有节点都只有右子树的二叉树叫做右斜树。区别于线性表一对一的元素关系，树中的节点是一对多的关系。一个节点拥有子树的数目。根节点为第一层，其余节点的层次等于其双亲节点的层次加1.树中节点各子树之间的次序是重要的，不可以随意交换位置。1、n>0时，根节点是唯一的，不可能存在多个根节点。除了叶子节点之外的节点，也即是度不为0的节点。

2024-01-24 17:33:08 428

原创算法——BF算法、KMP算法和BM算法

这三种算法都是最基本的字符串匹配算法。

2024-01-24 17:29:57 504

原创学习ros，掌握了ros编译的整体流程逻辑，所以写了一个简单的demo订阅

在ROS中，当你通过catkin_make编译你的工作空间时，所有的可执行文件（比如节点、工具等）会被放在devel/lib/目录下，其中是你的软件包的名称，这取决于CMakeLists.txt中设置的项目名称。在运行rosrun my_robot_pkg publisher_node命令时，publisher_node是一个可执行文件的名称，ROS会在你的工作空间中找到这个可执行文件并运行它。//添加了roscpp和std_msgs作为依赖项，因为我们将使用C++编写节点，并在订阅消息时使用标准消息包。

2024-01-24 17:05:26 459

结合我之前几次针对yolo的面试,总结了一下,写了个笔记

空空如也