一个中年程序员的自我修养-CSDN博客

原创【无标题】

该文章介绍了一种名为SWA Object Detection的目标检测方法，通过在模型训练结束后继续训练多个epochs并对多个epochs的checkpoints进行简单平均，从而获得更好的模型精度。本文讨论了工业缺陷检测中数据标注的几个注意事项，包括合并相近的缺陷、避免标注过细长的目标、不标注太小的目标、避免标注不明显的特征、准确框选缺陷部分以及训练集中至少要包含一次相似缺陷等。有个基本的原则：不能考虑太复杂，尤其是做过技术的同学，要以直观的思路去标注。值得一试，对抗过拟合。继续坚持每周一更，加油！

2024-04-24 18:24:38 168

原创 2024-04-17 学习笔记（李宏毅AI基础课，图像预处理）

该篇文章介绍了一种基于机器视觉的软包装锂离子电池表面凸点缺陷检测方法。通过离散傅里叶变换将灰度图转换到频域，使用高斯滤波器进行去噪处理，并结合深度学习模型进行缺陷检测，最终实现了对凸点缺陷的高准确性检测。这篇文章介绍了李宏毅教授的课程内容和作业安排，涵盖了深度学习的理论、优化、泛化、特殊网络结构、特殊训练技术、生成对抗网络(GAN)以及深度强化学习等主题。预处理的思路很有价值。工业外观质检领域有很多时候成像欠佳，需要加上预处理来提升效果。不过以我的经验和人生，95%也是落地不了的哦~

2024-04-17 20:16:09 221

原创 2024-03-26 学习笔记（工业大模型，SAM优化）

坚持每周一篇，加油。

2024-04-06 22:35:56 262

原创 2024-03-14学习笔记（YoloV9）

在目前这个市场，很多公司往往都减少了长期研发的投入，聚焦到眼前当下近期的业绩中去，研发也无可避免受到裹挟。通过引入C++中的Base64编解码库，可以将Mat对象转换为Base64字符串并进行解码，实现图像数据的转换与利用。应该始终要抱着“利他”的想法去做事，有时候比较烦躁，就容易迁怒他人，这样是不对的。文章强调了遵循规律、不走捷径、正向思维的重要性，以及思维、行动、习惯、性格和命运之间的关系。内容没啥干货，唯一有价值的信息是Ultralytics已经支持V9了，迭代太快了。

2024-03-14 15:20:34 385

原创 2024-03-11学习笔记）

本文总结了杨植麟和朱啸虎对AI大模型落地的看法和技术分析，重点讨论了大模型在电商+多轮chat助手领域的应用落地问题，以及落地较好的第三象限应用方向。人们往往高估一个新技术短期的效果和发展，而低谷长期的发展。他分享了在创业过程中遇到的许多挑战，包括硬件选择、供应商质量、多集群设置等问题，以及团队在训练大型模型时的经验和教训。丰富的AI训练经验，产生准确的本能和直觉，能大大提高研发效率。友商的发展还是很快的，大模型爆发后的持续投入，现在基本上可以拿出东西来说了，有多少吹牛的成分不太清楚。

2024-03-11 16:41:54 325

原创 2024-03-05 学习笔记（Transformer基础理解，校验数据异常，Claude-3,模型压缩）

同时，一些用户对Claude 3的人性化回复和其在长文本、图像和文件输入方面的表现也表示了兴趣。模型压缩是将大模型转化为小模型的算法，以适应嵌入式设备的有限算力和内存。模型压缩的收益包括减少计算和存储资源的占用。模型压缩的方法包括轻量化模型架构、模型剪枝和模型量化。本文介绍了几种常用的数据异常检测方法，包括基于分布的方法、基于距离的方法、基于降维的方法。灰度化是将彩色图像转化为灰度图像的过程，通过使彩色图像的R、G、B分量相等来达到灰度化的目的。这个文章更多的说明的是原理，可操作的方法还需要检索下。

2024-03-05 18:22:01 807

原创 2024-2-27 学习笔记（Pytorch训练提速，视觉大模型简介，SAM标注流程优化）

此外，文章还讨论了基于对话式的视觉语言模型和一些应用领域的具体模型，如医学图像分割、遥感图像分割和导航规划。这篇文章提供了8个PyTorch的训练加速技巧，包括优化硬件、测试训练瓶颈、图片解码、数据增强加速、数据预读取、多GPU并行处理、混合精度训练以及其他细节。Meta开源了一个图像分割模型【SegmentAnything Model】，简称SAM模型，号称分割一切，在短短开源的一周内，截止今天Github已经24k的star了！截止到现在，各家AI平台，如果不支持SAM，恐怕也实在过于落伍了。

2024-02-27 16:08:13 774

原创 2024-2-22 学习笔记（Yolo-World, Yolov8-OBB,小样本分类，CNN/Transfomer选择）

文章强调需要更详细的评估指标来选择特定情境下的模型，并建立与ImageNet无关的新基准。作者使用了迁移学习和对比学习的方法，并通过训练一个支持向量机分类器来识别起重机的三种状态：移动、伸展支腿和开臂。个思路我和你赞同，一是没有不好的算法，只有不适合的算法，小样本分类思路比较适合这种场景。在目前这个阶段，CNN死而不僵，transformer大行其道，它们有其各自适合的场景，算法开发人员还是要谨慎评估和选择，而不是一味追求新东西。旋转目标检测，很有实际意义，我理解旋转目标标注噪音更小，更容易训练收敛。

2024-02-22 16:08:19 874

原创 2024-02-21 学习笔记（DETR）

自动多模态检测验证效果不佳（过检太多）后，节后开始尝试DETR路线。基本梳理了下DETR发展和验证的脉络，先进行相应指定场景的效果验证。关于DETR系列的介绍，B站上比较多，迪哥的都讲的比较细。看了大佬的文章才知道什么叫深入简出！

2024-02-21 16:53:07 253

原创 2024-02-01 学习笔记

它可以缩短样本收集和模型上线的时间，适用于检测无法预测的未知缺陷，精度准确率高，可以检出低至7*7像素的细小缺陷。本文介绍了浙江大学和网易伏羲合作发表在EMNLP'23上的工作FreeAL，旨在探讨大模型时代的数据标注是否还有意义，以及如何在极低的人力成本条件下，达到更高的下游任务性能。FreeAL采用了大小模型协同工作的方法，利用大模型进行标注并生成demo样本，再由小模型进行筛选和蒸馏，以达到Human-Free的数据标注。工业质检场景非常多，非常长尾，阿丘的思路是通用性，已经算做的很不错了。

2024-02-01 18:19:41 130

原创 2024-01-29学习笔记

最后解释了字符串驻留的概念，并提供了使用sys.intern()方法显式驻留字符串的示例。该模型的架构有一些新的变化，如新的卷积和可选项的残差连接。模型剪枝是一种常用的模型压缩方法，可以直接减少模型中的参数量，从而减少对硬件的存储、带宽和计算需求。文章还介绍了激活稀疏和结构化稀疏两种方法，并对它们与非结构化稀疏方法的比较进行了讨论。：算法介绍的文章很多，此类文章可以看下，了解下大概，如果要用好甚至是改进，看此类文章肯定是不够的。，不要看这些功能和技术简单，运营好了，一样成为持续的现金收入。

2024-01-29 17:54:43 348

原创 2024-01-25学习笔记

元学习算法训练模型学习如何有效地学习新任务，其中基于度量的元学习和基于梯度的元学习是两种常见的方法。在图像分类方面，少样本学习算法包括与模型无关的元学习、匹配网络、原型网络和关系网络。在我司的不少场景上试过少样本算法，最多只能达到95%，这样显而易见很多工业质检场景是无法落地的。最近关于检测大模型，试了几个多模态（Text-Image）的效果都不咋样，泛化能力过强导致的over check太多，元旦前后，家里人和自己都生病了，然后个人身上又发生了点事，有点心力交瘁。拖拖拉拉，又好几天未更新了。

2024-01-25 14:35:07 345

原创 2024-01-10学习笔记

研究者们提出了一种无需训练的分割方法GenSAM，通过一个任务描述能够批量地对所有相关任务的无标注图片进行分割。该方法通过跨模态思维链（CCTP）和渐进掩膜生成（PMG）实现。实验结果表明，GenSAM在伪装样本分割、阴影分割和透明物体分割任务上取得了出色的性能。

2024-01-08 16:29:48 422

原创 2024-01-04 学习笔记

这篇文章主要讨论了在图像语义分割任务中常用的几种损失函数，包括交叉熵损失、加权损失、焦点损失和Dice soft损失。交叉熵损失是最常用的损失函数之一，用于比较每个像素的类别预测结果与标签向量，特别适用于多类别预测。加权损失用于解决类别不均衡的问题，通过对正负样本的损失赋予不同的权重来平衡样本分布。焦点损失则进一步关注难学习的样本，通过修改二元交叉熵损失函数来使模型更加专注于学习难学习的样本。

2024-01-04 17:41:35 396

原创 2024-01-03

实际目前都是用Zero-shot,因为场景的背景有多个，且主要是外观缺陷检测。Few-shot适合固定背景的单一物体异常检测，例如检测器件倒置之类。看论文，原理还是比较好理解的。3）网络结构调整，去除FC层。

2024-01-03 17:33:41 361

原创 2023-12-29学习日记

最近一直在学习这个系列，确实讲的很通俗易懂。一些经典算法的原理，是应该牢固掌握，一些经典的思路，更应该熟记于心，才能有希望做一个合格的算法开发工程师。2.5D的检测会越来越被使用，这种方法论值得仔细研究。直接用点云或深度图做AI这条路倒是很少看到，继续观察业内对手情况。公司有项目近期在采用此方法，使用RGB法线图能很清晰的看到凹凸点，然后用分割算法进行标注后训练。写博客就是为了记录一些学习心得，也不求能有多大热度，如果对他人有所启发，那最好不过。2024，继续加油，新年快乐！但到底是还在坚持着。

2023-12-29 18:09:14 430

原创 2023-12-18学习日记

在MEET 2024智能未来大会上，360集团副总裁、360大模型应用负责人梁志辉分享了他关于大模型在企业生产中的应用场景的经验和看法。他提出了让大模型成为员工的智能助手，实现人机协同的理念。梁志辉还介绍了大模型在智能营销、智能办公和智能客服等领域的应用场景。作者解释了Halcon的学习过程，包括设置学习目标并坚持不懈地学习，最终实现成长和成功。文章还介绍了机器视觉应用场景的分类，包括视觉定位、视觉测量、识别和视觉检测。对于每个应用场景，作者提供了常用的算法和方法，并给出了一些示例。

2023-12-18 18:08:53 19

原创 2023-12-6学习笔记

3. 初始化显卡通信和参数获取方式，使用`torch.cuda.set_device`设置GPU通信方式，并使用`torch.distributed.init_process_group`初始化分布式运算。5. 在主程序中使用`torch.cuda.set_device`设置GPU通信方式，并使用`nn.DataParallel`将模型分布在不同的GPU上。以上是使用PyTorch实现分布式训练的基本步骤。1. 导入`torch.cuda.amp`工具包中的`autocast`和`GradScaler`。

2023-12-06 19:05:51 15

原创 2023-12-3学习笔记

该论文探讨了基于多任务微调的基础模型在少样本适应中的理论基础。研究发现，通过在一组相关任务上进行多任务微调，可以降低目标任务的错误率。论文提出了任务选择算法，并通过大量实验证据证明了该算法的优越性。多任务微调是如何帮助基础模型适应新任务的？多任务微调可以帮助基础模型适应新任务。根据论文的理论分析，通过在一组相关任务上进行多任务微调，可以降低目标任务的错误率。多任务微调利用先前在相关任务上学到的知识和表示来提供初始模型参数，然后通过在目标任务上进行微调来适应新任务。

2023-12-03 10:34:11 17

原创 2023-12-1学习日记

阿里云通义千问开源了一系列大模型，包括参数量为18亿、70亿、140亿和720亿的四款基础开源模型。这些模型在中文任务上表现出色，尤其在复杂语义理解和逻辑推理方面有很强的能力。开源模型的优势包括更强的中文能力、降低成本、可定制性和丰富的生态系统。

2023-12-01 17:44:31 19

原创 2023-11-27 学习笔记

本文介绍了PyTorch团队重写「SAM分割一切」模型的加速方法。通过使用Bfloat16半精度、GPU同步和批处理等技术，以及Torch.compile编译器和SDPA（Scaled Dot Product Attention）等特性，他们成功地提高了SAM模型的性能。

2023-11-27 14:26:33 22

原创 2023-11-14 学习笔记

GPT-4V（GPT-4 Vision）是ChatGPT的改进版本，可以准确解读图像。这个新模型可用于注释图像，这有助于训练缺乏足够注释的任务的模型。通过使用 ChatGPT API，可以从互联网收集随机图像并进行注释。与手动注释相比，此过程可以节省时间和成本。然而，使用该模型存在一些限制，例如成本、延迟以及对外部 API 访问的依赖。建议在实际应用中使用模型之前对其进行广泛测试。

2023-11-14 16:51:04 25

原创 2023-11-7学习笔记

本文讨论了基于深度学习的道路小目标检测方法。作者从数据增强、多尺度策略、生成超分辨率细节信息、加强上下文信息联系、改进损失函数等5个方面对优化方法进行了总结，并评估了各类方法的性能。文章指出，在大型复杂数据集中，基于多尺度策略的优化方法可以提高小目标检测的精度。未来的研究方向包括设计更优和更轻量化的检测模型、构建小目标数据集以及改进训练策略。

2023-11-07 18:51:44 27

原创 2023-11-4学习笔记

这篇文章讲述了一个人要想持续优秀，不断成功，需要有自己的体系，并且要拥有深度思考的能力。作者提出了三个方法来培养深度思考的能力，包括拒绝干扰，勤于思考，培养系统性思维以及构建自己的思维模型。此外，文章还介绍了一个做事闭环的方法——PDCA循环，并将其与迭代开发进行了类比。

2023-11-04 13:38:48 26

原创 2023-11-2学习笔记

本文介绍了车道线检测问题以及如何使用PaddleSeg进行训练，获得预测结果并进行可视化。通过裁剪图像的上半部分，我们可以省略掉不必要的天空区域并节省内存空间。在训练过程中，参考了PaddleSeg文档中给出的类别不均衡问题的处理方式。最终，通过修改vis.py使其将预测结果输出为单通道灰度图，实现了预测可视化。

2023-11-02 15:16:56 28

原创 2023-10-29

本文介绍一种简单的方法，可将视觉基础模型（VFM）有效合并成一个统一的模型，吸收它们的专业知识。该方法将多任务学习、连续学习技术和教师-学生蒸馏相结合，具有比传统从头开始的多任务训练更少的计算成本，并且仅需要最初用于训练单个模型的预训练数据集的一小部分。通过将该方法应用于SAM和CLIP，我们得到SAM-CLIP：一个将SAM和CLIP的优点融合成一个单一骨干的统一模型，适用于边缘设备应用。SAM-CLIP在多个头探测任务上取得了改进的性能，并在零-shot语义分割方面建立了新的最新技术结果。

2023-10-29 17:34:55 104

原创 2023-10-24学习笔记

最近TensorRT部署工作做的挺多，这两篇文章讲的都比较入门，确实有好多东西可以学，明年似乎可以作为一个研究的重点，但不能太发散，还是基于已有模型的TRT推理需求来做比较好。人到中年，碰到这种事似乎也比以前淡定了很多，因为现在能看清了，其实改变不了什么。以前的愤怒大概是因为还抱着期望吧。不过这在职场中也很正常，个人不是第一次经历了，我记得张文宏说过：我就经常被搞。或许和他爱说话有关？结果我并没有不满意，本来就不太感兴趣太深度介入项目。过程有点恶心，当面不说，还捅到高层。

2023-10-24 11:02:58 28

原创 Google Tuning book 学习笔记

例如，如果科学超参数是“隐藏层数”，而使用最多隐藏层数的最佳试验表现出有问题的过拟合，那么我们通常更愿意使用额外的正则化再次尝试，而不是立即选择较少数量的隐藏层。如果我们在之前的实验中确定激活函数的最佳选择对模型深度不敏感，或者如果我们愿意将关于隐藏层数的结论限制为仅涵盖激活函数的特定选择，则激活函数可能是一个固定的超参数。例如，我们可能会对特定的搜索空间运行相同的实验，但使用两个不同的种子进行准随机搜索，并最终选择不同的超参数值。注意：有些模型显示出非常早期的不稳定，然后恢复，导致缓慢但稳定的训练。

2023-10-24 10:49:41 46

原创 2023-10-17 学习日记

有些成像确实缺陷会不够明显，直接上AI效果不够理想，结合传统方法是一个很好的思路。这个产品一开始招募了比较低阶的应用工程人员和标注人员，正常这样操作是没问题，包括算法和软件研发，是一个产品的正常组成。花了很多时间培养低阶的人员，成长不够理想，对项目支持效率也不够理想，最终导致项目完成度和效率达不到预期。今天在写AI改造项目的总结，列举了很多问题，但有一点我觉得比较核心：顶层设计出问题了。里面有我一直和研发同事提到的系统全局观，以业务需求，用户体验为导向来研发。优化的两位同事，人事帮忙处理好了。

2023-10-17 19:26:43 23

原创记录一次Tensorrt batch推理异常的处理

经过反复测试，发现传入约80%的图片能正确推理成功（比如batch size=64,传入40张图片，其余为0）。因为项目紧急，本来想先提供这个临时方案的。比如72张芯粒样本，里面有20张是不良品，单张推理结果是正确的，但batch推理结果却只能有9张不良品。和batch size也无关。这句话的作用就是让data拷贝到GPU结束后，CPU线程再继续。之前没有这句话，应该是没拷贝全到显存。最近给半导体部门提供C++ 推理库，还得支持TensorRT。测试下来发现batch推理和单张推理结果不一致。

2023-10-15 10:48:12 283 3

原创 2023-10-14 学习笔记

本文主要探讨了工业缺陷检测的固有属性和难点，以及解决这些难点的方法论和工具链。缺陷检测的固有属性包括场景和数据的复杂性、精度要求高和检测时间长等。文章提出了需求和任务拆分、定制语义分割和目标检测、对正常样本建模、工具链完善等解决方案。

2023-10-14 13:41:56 17

原创 2023-10-5 学习笔记

本文概述了计算机视觉领域的关键术语，例如主干、头部、颈部、预处理、后处理、嵌入、特征图、池化和语义信息。它解释了这些术语在构建计算机视觉知识库时的概念和意义。

2023-10-05 17:37:30 21

原创 2023-09-28 学习笔记

在本文中，三位作者讨论了他们对深度学习现状的看法。一位作者将深度学习视为一种数据驱动的规则引擎，小模型比大模型更有效。另一位作者认为，问题不在于深度学习本身，而在于倾向于关注已经建立的任务和框架。第三位作者同意深度学习具有潜力，但指出它目前缺乏产生像物理学中发现的普遍规律的能力。

2023-09-28 17:21:36 17

原创 2023-09-22学习笔记

本文讨论了工业物联网（IIoT）和智能制造的概念，重点关注设备网络、数据采集和数字孪生。作者强调了投资自动化设备和数字化转型以保持行业竞争力的重要性。本文还提供了对IIoT平台类型以及人工智能在释放IIoT真正价值方面的作用的见解。

2023-09-22 16:20:54 18

原创 2023-09-21

本文讨论创建平衡数据集以训练高性能对象检测模型的必要步骤。它涵盖了与准备训练样本图像相关的五个关键问题，并推荐了样本创建工具及其用法。感想：1. 这两天其他事业部有反馈分类训练效果不佳，经研究后发现与图片设置宽高不是32倍数有关。Resnet采用5倍下采样，所以输入图片尺寸为32倍数才最佳，否则边缘填充或插值后对训练效果影响比较大。平台后续也会修改默认设置，可以自动调整到32倍数，来增加易用性。

2023-09-21 19:06:48 25

原创 2023-09-19学习笔记

人工智能基金创始人兼谷歌大脑联合创始人吴恩达最近在斯坦福大学的一次演讲中讨论了人工智能的现状及其未来的潜力。吴恩达强调监督学习是过去十年的重大发展，但也指出生成人工智能的潜力不断增长，它能够创建文本并拥有巨大的增长机会。他还讨论了语言模型作为开发人员工具的重要性，以及人工智能在各行业创造价值的潜力。吴恩达强调了开发特定用例的必要性，以及人工智能技术开发中道德考虑的重要性。感想：1.吴恩达教授的思路貌似是一直比较入世的，使用AI技术对很多行业赋能，他的想法对于创业者也很有借鉴意义。

2023-09-19 17:55:13 21

原创 2023-09-13学习笔记

版权声明：本文为CSDN博主「qq_19986067」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。1.winclip的升级版，主要改进在于memory bank的使用，明天需要继续研究代码。1.从开源的生命力来看，第三方的库肯定没有大厂开源库来的好，后续迭代速度也比较有限。1.最近需要升级C++推理库，百度这个开源库还是封装的比较好的，相关流程也比较清晰。“宽容”：对于家庭有事的成员，要请长假，该批还是不批呢？这个是另外一个第三方的C++推理库，貌似封装的也还行。

2023-09-13 17:12:36 35

原创 2023-09-07学习日记

winclip升级版本文提出了视觉异常和新颖性检测 (VAND) 2023 挑战赛的零/少样本赛道的解决方案，其中涉及构建一个单一模型，该模型可以在没有或只有少量正常参考图像的情况下快速适应众多类别。所提出的解决方案基于 CLIP 模型，添加了线性层，将图像特征映射到联合嵌入空间，并将它们与文本特征进行比较以生成异常图。对于少镜头设置，该解决方案结合了内存库和一些参考图像，以提高异常分类和分割的性能。感想：1.winclip的升级版，主要改进在于memory bank的使用，明天需要继续研究代码。

2023-09-07 18:41:53 68

原创 2023-09-05学习笔记

WinCLIP 是一种用于零样本和少样本异常分类和分割任务的方法，它使用对比语言图像预训练 (CLIP) 模型将文本和图像编码器结合起来。该方法利用参考关联来捕获异常样本的特征，实现准确的分类和分割。WinCLIP 在多个数据集（包括 MVTec AD、CIFAR-10 和 MNIST）上进行了评估，其性能优于其他高级方法，在不同的异常类型和样本大小上表现出稳健性和泛化性。感想：1.其零样本/少样本能力值得好好验证，在我司场景上的效果验证已经安排。2.如果效果好，要重点推进推理的问题。

2023-09-05 16:34:30 108

原创 2023-09-04学习日记

本文讨论了深度学习模型集成的三种常用方法：快照集成（Snapshot Ensemble）、快速几何集成（Fast Geometric Ensembling）和随机权重平均（Stochastic Weight Averaging）。这些方法可以通过结合多个模型的预测来提高任何给定神经网络的性能。文章解释了局部最优解和全局最优解之间的区别，以及这些方法在权重空间中的工作原理。快照集成在每个学习率周期结束时保存模型，并将它们用于预测，而快速几何集成使用线性分段学习率和比快照集成更短的周期长度。

2023-09-04 18:45:30 27

Towards Few-Shot Adaptation of Foundation Models via Multitask F

空空如也