Deep_Dreamer-CSDN博客

原创 FSDrive:自动驾驶大模型VLA/VLM洞察未来

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-31 13:44:28 687

原创开源自动驾驶VLM/VLA！基于任意大模型的视觉推理

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-31 13:42:59 747

原创自动驾驶大模型VLA/VLM中的视觉推理FSDrive

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-30 14:05:14 750

原创自动驾驶VLA新范式！FSDrive洞察未来！

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-30 14:03:40 736

原创统一视觉CoT!自动驾驶VLM进化

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-29 22:53:24 825

原创开源自驾大模型！扩展多模态大模型进行视觉生成

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-29 22:51:22 1304

原创自动驾驶迈向视觉推理｜统一视觉生成与理解的VLM

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-28 14:14:55 1143

原创洞察未来！自动驾驶大模型FSDrive

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-28 14:13:05 793

原创可视化的思考：FutureSightDrive(FSDrive)

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-27 20:39:52 874

原创可视化地思考：FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving

视觉语言模型（VLMs）因其强大的推理能力，在自动驾驶领域受到日益广泛的关注。然而，现有VLMs通常采用针对特定场景设计的离散文本思维链（Chain-of-Thought, CoT），这种表征本质上是对视觉信息的高度抽象和符号化压缩，可能导致空间-时间关系模糊以及细粒度信息丢失。自动驾驶是否更适合通过真实世界模拟与想象建模，而非纯粹依赖符号逻辑？本文提出一种时空思维链（spatio-temporal CoT）推理方法，使模型可视化地思考。首先，VLM作为世界模型生成统一图像帧以预测未来世界状态：其中感知结果

2025-05-27 20:26:49 864

原创 Hierarchical Video-Moment Retrieval and Step-Captioning

背景为了激发人们对使用机器学习系统从这些基于文本查询的大型视频语料库中提取和总结重要信息的兴趣，在视频检索、时刻检索、视频摘要和视频字幕方面取得了进展。以前的工作通常侧重于独立解决这些任务；然而，所有这些任务都有一个共同的目标，即以不同的尺度和通过不同的模态从视频语料库中检索信息。因此，在这项工作中，引入了一种新的分层基准测试，它将所有四项任务结合在一起，以实现新颖而有用的现实世界应用程序。例如，基于文本的搜索服务从大型视频语料库中找到相关视频，从该视频中提取最相关的时刻，将该时刻划分为重要步骤，并

2024-09-23 15:04:31 827

原创 DL代码提升3

这样就可以将结果分解为单独的张量，而不是一个2D张量。这样可以取出非零元素对应位置的元素。会返回一个多维张量，其中每行表示一个值为1的元素的索引。

2024-09-23 15:04:21 368

原创 paper总结（8）Neighbor-guided Consistent and Contrastive Learning for Semi-supervised Action Recognition

半监督学习在图像分类领域已经得到了很好的应用，但在基于视频的动作识别领域仍有待探索。FixMatch是一种最先进的半监督图像分类方法，但由于它只使用单一的RGB模式，包含的运动信息不足，因此在直接传输到视频领域时效果不佳。此外，它仅利用高置信度伪标签来探索强增强和弱增强样本之间的一致性，导致监督信号有限，训练时间长，特征识别力不足。为了解决上述问题，作者提出了邻居引导的一致性和对比学习(NCCL)，它以RGB和时间梯度(TG)为输入，基于师生框架。

2024-09-22 18:40:56 816

原创 paper总结（）Learn2Augment: Learning to Composite Videos for Data Augmentation in Action Recognition

这是必要的，因为转换的空间是巨大的，如果我们需要创建每个候选增强视频，这个过程将是非常昂贵的。在我们的实验中，我们首先确定我们想要增加的视频数量的预算，然后选择阈值来选择排名靠前的视频对。即对视频对进行采样，通过训练好的选择器，选择得分较高的视频对，通过视频合成(Video Compositing)将这些视频对生成新的视频，并添加到训练集中。注意，选择器的输入是两个假定的视频，而不是合成的视频。然而，至关重要的是，在训练过程中，如果我们要合成所有视频对，这只是需要生成的视频数量的一小部分(小一个数量级)。

2024-09-22 18:39:43 991

原创 Query-Dependent Video Representation for Moment Retrieval and Highlight Detection

通过插入视频作为查询，插入文本作为交叉关注层的关键字和值，我们的编码器在提取视频表示时加强了文本查询的参与。给定L个剪辑的视频和具有N个单词的文本查询，我们将它们的表示分别表示为由冻结视频和文本编码器提取的{v1，v2，…给定L个剪辑的视频和具有N个单词的文本查询，我们将它们的表示分别表示为由冻结视频和文本编码器提取的{v1，v2，…例如，Moment DETR[28]天真地将视频与查询连接起来，以输入到自关注层，如果视频片段之间的高度相似性超过了文本查询的贡献，则这可能导致查询的作用不显著。

2024-09-21 12:49:46 1071

原创 Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training

通过从大规模图像文本数据集中预先学习的视觉和文本特征，以及我们对文本特征的适应，以了解视频的时间变化，我们的 VDI 模型准备使现有的 VMR 模型受益。虽然采用视频文本预学习特征[34，38，50]进行瞬间检索是直观的（图1（b）），但已经表明，使用粗粒度视频级别标签预训练的模型不能很好地转移到基于本地化的任务，如VMR，因为它们不知道文本与帧或剪辑之间的细粒度对齐[2]。尽管如此，在没有足够的训练数据的情况下，推导通用的视频文本对齐以推广到新颖的场景和词汇是不平凡的。方程中的训练目标函数 L。

2024-09-21 12:49:11 709

原创 Unsupervised Deep Representation Learning for Real-Time Tracking

摘要我们的无监督学习的动机是稳健的跟踪器应该在双向跟踪中有效。具体来说，跟踪器能够在连续帧中前向定位目标对象，并回溯到其在第一帧中的初始位置。基于这样的动机，在训练过程中，我们测量前向和后向轨迹之间的一致性，以便仅使用未标记的视频从头开始学习稳健的跟踪器。我们在 Siamese 相关滤波器网络上构建我们的框架，并提出了一种多帧验证方案和成本敏感损失来促进无监督学习。介绍最近，深度模型通过加强特征表示或端到端优化网络来提高跟踪精度，这些模型经过完全监督离线预训练，在训练阶段需要大量带注释的真实标签

2024-09-20 21:09:33 1046

原创视频单目标跟踪研究

由于对视频单目标跟踪并不是很熟悉，所以首先得对该领域有个大致的了解。视频目标跟踪是计算机视觉领域重要的基础性研究问题之一，是指在视频序列第一帧指定目标后，在后续帧持续跟踪目标，即利用边界框（通常用矩形框表示）标定目标，实现目标的定位与尺度估计（目标跟踪问题通常分为单目标跟踪和多目标跟踪，这里主要关注单目标跟踪问题）。视觉跟踪技术是计算机视觉领域（人工智能分支）的一个重要课题，有着重要的研究意义；且在军事制导、视频监控、机器人视觉导航、人机交互、以及医疗诊断等许多方面有着

2024-09-20 21:09:19 1664

原创复现MapTRv2的坑

mmcv-full版本为1.3.18,且需要-f。再次执行nvcc -V 就可以看到相应cuda版本了。timm版本为0.9.5。

2024-09-16 17:33:09 399

原创即插即用！高德&西交的PriorDrive：统一的矢量先验地图编码，辅助无图自动驾驶

最近出现了很多先验地图的论文，高德地图和西交的这篇工作PriorDrive也给出了他们的方法。使用车载传感器来在线构建高精地图已经成为一种很有前途的解决方案;然而，由于遮挡和恶劣天气等，这些方法可能会受到数据不完整的阻碍。本文提出了PriorDrive框架，通过利用先验地图来解决这些限制，显著提高了在线高精地图构建的鲁棒性和准确性。

2024-09-16 17:31:15 2425

原创 Scanning Only Once: An End-to-end Framework for Fast Temporal Grounding in Long Videos

具体来说，我们首先通过锚划分层产生非重叠的锚序列，然后实现三个过程来获得最终预测：（1）通过级联的时间swin transformer块对锚之间的上下文知识建模来获取基于多尺度上下文的锚特征[12]。为了充分利用长视频中丰富的跨模态语义关系，我们在一个训练步骤中用一批基于该视频的查询对一个视频进行采样，然后借助所提出的对偶形式近似秩损失同时优化全长锚秩和查询秩，从而实现了优越的跨模态对齐。双重形式近似秩损失。给定大量的候选锚点，我们的目标是获得这样一个锚点秩：与查询语义相关的锚点应该排在不相关的锚点之前。

2023-05-15 14:06:49 445

原创【论文阅读】MINOTAUR: Multi-task Video Grounding From Multimodal Queries

背景动机细粒度的视频理解已经成为增强现实(AR)和机器人应用开发的关键能力。为了达到这种级别的视频理解，智能体(例如虚拟助手)必须具备识别和推理视频中捕获的事件和对象的能力，处理一系列视觉任务，如活动检测、对象检索和(空间)时间基础。然而，目前关于视频理解的研究主要集中在使用特定任务的注释数据集训练个体的、高度专业化的模型，而没有考虑多个任务之间的协同作用和模型对新任务的泛化。作者寻求一种替代方法——为多个细粒度视频理解任务构建一个统一的框架。具体来说，目标是调查两个关键的研究问题（i）设计

2023-05-13 16:35:50 950 1

原创 Video Grounding

然而，候选片段的重叠导致了太多的冗余计算，而且单独的成对的片段查询匹配也可能忽略了上下文的视频信息。同时，虽然不需要像两阶段方法那样进行预分割，但它的结果仍取决于被提案出的候选片段的排名，这也会影响其效率。所示，它利用多模态处理模块将候选片段的表征与句子表征相融合，然后将融合后的表征送入另一个全连接层，以预测候选片段的对齐分数以及候选段和目标段之间的位置偏移。在这个空间中，句子查询和相应的目标视频片段之间的 L2。与基于锚点的方法相比，无锚点的方法具有更高的计算效率和对可变时长视频的鲁棒性。

2023-05-13 11:17:41 1245

原创 DL代码能力提升2

对张量a进行成k块，但如果指定轴的元素个数被chunks除不尽，最后一块的元素个数会少。将input的值限制在[min, max]之间，并返回结果。中提取值，注意是只包含一个元素，否则的话使用.tolist(), optional) – 输出张量，一般用不到该参数。.item()用于在只包含一个元素的。.item()的用法。

2023-03-26 10:42:19 313

原创人工智能实践——Restauraut+ 食物识别分析与营养规划系统

项目背景描述：项目以落地性强、准确度高为主要宗旨。对于餐厅而言。目前，由于使用收银机，餐厅的付款流程仍然是人工的且效率低下的。收银员会检查顾客点了什么食物，然后在收银台上进行结算。效率并不高。因此，食物识别设备和自动食物价格估算可以解决这些问题。食物识别分析旨在优化餐厅付款付款流程，并使用计算机视觉方法自动估算食物价格。传统的方法有餐盘识别价格计算法，该方法通过设置价格区间，不同的价格对应不同颜色的餐盘，因此算法只需要有能力识别各种颜色的餐盘即可，这样做优点是准确率高、算法设计简单，缺点是价格只能

2023-03-25 08:00:00 6296 7

原创山大计算机视觉实验4

•记[x’, y’]=f([x, y])为像素坐标的一个映射，实现 f 所表示的图像形变，并采。下角像素的坐标为(xi, yj+1)，右上角像素的坐标为(xi+1, yj)。设左上角像素的坐标为(xi, yj)，右下角像素的坐标为(xi+1, yj+1)，则左。该像素在目标图像中的位置为(x',y')，其中 x'和 y'也是实数，表示其在目标图。始图像中的一个像素点(x,y)要映射到目标图像的位置(x',y')上。图像中的位置为(x,y)，其中 x 和 y 为实数，表示其在原图像中的浮点坐标。

2023-03-24 08:00:00 737

原创山大计算机视觉实验3

这里我只交换改变参数a，固定参数b。具体来说，将每个像素的像素值作为sigmoid函数的输入，调整sigmoid函数的参数，然后将输出值作为像素值进行修改。实验3.1的代码实现了一个基本的对比度调整功能，使用了Sigmoid函数对图像进行了变换，同时利用了OpenCV的窗口系统和滑块控件，提供了交互式的用户界面，使得用户可以方便地调整参数，实时查看效果。另外，为了进一步提高检测的准确性，也可以采用一些改进的背景建模方法，如自适应背景建模、基于深度学习的方法等，从而减少对阈值的依赖性，提高背景相减的效果。

2023-03-23 08:00:00 919

原创山东大学机器学习大作业

DLRM是Facebook在2019年提出的用于处理CTR问题的算法模型，与传统的CTR模型并没有太大的差别，文章本身更注重的是工业界对于深度模型的落地，在文中介绍了很多深度学习在实际落地过程中的细节，包括如何高效训练。第一，如何处理离散特征。CTR的训练样本中包含了大量的离散的类别特征，这样的数据是不能直接放入到深度学习模型中，在DLRM中，通过Embedding层将离散的特征转化成稠密的特征；特征交叉对于CTR问题的求解具有重要的作用，在DLRM模型中，模仿着FM算法中的做法，对向量两两做点积。

2023-03-22 08:17:43 5407

原创山东大学机器学习实验12

另一种观察这种过度拟合的方法是查看在不同数据子集上训练的模型，例如，在下图中，我们训练了两棵不同的树，每棵树都在原始数据的一半上。很明显，这并不是真实的、内在的数据分布的结果，而更多的是数据的特定采样或噪声特性的结果。然后我们运用sklearn中的决策树进行分类训练，并借助指导给出的可视化函数绘图：建立在该数据上的简单决策树将根据某个定量标准沿着一个或另一个轴迭代分割数据，并在每个级别根据新区域内的多数投票分配新区域的标签。②森林中树之间的相关度：树之间的相关度越大，则随机森林的分类性能越差。

2023-03-22 08:17:09 3164

原创 DL代码能力提升1

print(a)# 结果。

2023-03-21 10:21:56 5745

原创山东大学机器学习实验11

首先对每个属性尝试分类并计算出信息熵，从结果可以看出第0维度的信息熵最小，即纯度最高，为0.333.所以我们接下来用第0维度的属性进行决策划分，可以看出划分后的左子树的信息熵为0，即全属于一个类，右子树的信息熵为0.5.所以接下来我们只用对右子树进行划分，我们开始尝试对右子树进行决策划分，从结果可以看出第1维度的信息熵最小，即纯度最高，为0.110.所以我们接下来用第1维度的属性进行决策划分，可以看出划分后的左子树的信息熵为0.168，右子树的信息熵为0.042.可以通过集成学习之类的方法来改善。

2023-03-21 10:09:25 640

原创 paper总结（10）SOFTMATCH: ADDRESSING THE QUANTITY-QUALITYTRADE-OFF IN SEMI-SUPERVISED LEARNING

对于FlexMatch来说，即使训练初期使用了较低的阈值以提高利用率(相比于FixMatch为高数量)，但是伪标签中引入了过多的错误标签(约16%所使用的标签是错误的).(我们认为这也是FlexMatch在svhn上不work的主要原因). 相比于之前的方法，SoftMatch在保证高利用率的同时，通过对可能错误的标签分配较低的权重，以同时实现高质量。间的trade-off。动态阈值通过前期降低(不同类别/不同数据)的阈值，来引入更多的伪标签在前期参与训练，但是前期的低阈值会不可避免的引入质量低的伪标签。

2023-03-20 06:00:00 6307 1

原创山东大学机器学习实验10

每一行代表一个图像，其中第一项是标签，而下面的第一项是像素的索引和相应的灰度值。下面是gamma=100，与之前的相比，可以看见蓝色类别的样本点的分布曲线都比较窄，此时的决策边界就是这些蓝色类别样本点周围围绕的区域，只有样本点在这些区域内才判定样本点为蓝色类别，否则，将样本点判定为红色类别，这也出现了轻微的过拟合现象。这里我们使用高斯核函数，即RBF，其中gamma=1，然后绘制出决策边界，如下图所示：这是一个非线性的分类边界，虽然有一些分类错误，但这些点都是噪声点，所以我们得到了较好的决策边界。

2023-03-20 04:00:00 1511

原创山东大学机器学习实验9

上图是使用RBF核函数的SVM得到的分类边界，gamma等于100，由于现在的gamma值比较大，所以可以看见每个蓝色类别的样本点的分布曲线都比较窄，此时的决策边界就是这些蓝色类别样本点周围围绕的区域，只有样本点在这些区域内才判定样本点为蓝色类别，否则，将样本点判定为红色类别。下面是使用高斯（RBF）核函数的SVM，也是使用Pipeline将数据归一化和核函数为“rbf”的SVM链接在一起，其中的gamma参数值取值越大表示的就是高斯函数（正太分布）的那个分布曲线越高瘦，分布曲线变的尖尖的。

2023-03-19 08:00:00 1424

原创山东大学机器学习实验8

我们在param_grid中提前设置需要调整的参数，比如用于kneighbors查询的默认邻居的数量：n_neighbors从1到10，和用于Minkowski metric（闵可夫斯基空间）的超参数p ，使用的是闵可夫斯基空间从1到5.然后运行网格搜索就可以从设定的参数范围找到最好的模型并返回对应的参数，对于超参数的选择非常方便。而且用经过归一化处理后的数据进行模型训练，最后用同样归一化处理过的测试集进行验证，发现结果出奇的好，所以对数据进行合适的预处理，比如归一化，就会得到较好的模型训练。

2023-03-19 04:00:00 1415

原创 paper总结（9）FREEMATCH: SELF-ADAPTIVE THRESHOLDING FORSEMI-SUPERVISED LEARNING

由于不同的类具有不同的类内多样性水平(不同的σ)，并且有些类比其他类更难分类(μ2 -μ1较小)，因此需要一个细粒度的类特定阈值来鼓励向不同的类公平分配伪标签。将提到的类公平目标纳入FreeMatch，以鼓励模型对每个类做出不同的预测，从而产生有意义的自适应阈值，特别是在标记数据很少的设置下。在本文中，作者首先利用一个激励性的例子来证明，不同的数据集和类应该根据模型的学习状态确定它们的全局(特定于数据集)和局部(特定于类)阈值。局部阈值旨在以特定于类的方式调整全局阈值，以考虑类内的多样性和可能的类邻接性。

2023-03-18 22:31:33 9322 2

原创山东大学机器学习实验7

但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。根据上述的这些，我们就可以计算给定数据在每个类上的概率，取其中的最大值，即该数据点属于哪一个类。

2023-03-18 08:00:00 516

原创山东大学机器学习实验6

其中矩阵的行表示真实值，矩阵的列表示预测值，混淆矩阵能够帮助我们迅速可视化各种类别误分为其它类别的比重，这样能够帮我们调整后续模型，比如一些类别设置权重衰减！下图为P-R图，即查准率为纵坐标，召回率为横坐标，若其中有多条曲线，则线条与坐标系包围的面积越大，说明模型的性能越好，其中越接近（1，1），性能越好。下图为ROC曲线，即真正率为纵坐标，假正率为横坐标：在此图中，AUC，即曲线下的面积越大，说明模型的性能越好，越接近（0，1），表示性能越好。"""计算y_true和y_predict之间的准确率"""

2023-03-18 04:00:00 1651

原创山东大学机器学习实验4

λ较大，则特征对于代价函数的影响较大，结果是算法会尽量降低参数的影响，可能导致欠拟合。λ较大，则特征对于代价函数的影响较大，结果是算法会尽量降低参数的影响，可能导致欠拟合。1.经过几次实验，发现应该记住回归方法中的一些公式，比如损失函数以及求导后的结果，海森矩阵等等，整体的结构和流程都是差不多，记忆后这样再写代码的时候更快，比较方便。

2023-03-17 08:00:00 2075

原创山东大学机器学习实验5

这是第二个示例中，随着特征个数保留的变化，方差的变化情况，从图中可以看出，当保留特征数为2时，方差仅仅只有0.2左右，所以这就是为什么正确率只有60%。当特征数在30左右时，方差增加的很缓慢，区域稳定，所以当保留95%的方差时，数据降维到28维，且正确率为0.98。这是第一个示例，图中紫色散点图是原来数据的二维特征，图中红色散点是用PCA将2维数据降至1维后，又返回到二维绘制的图像，这就相当于将紫色的点投影到红色所在的线上。1.主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强。

2023-03-17 08:00:00 1961

山东大学深度学习期末复习资料，93菜鸡

空空如也