深度学习拓展阅读
文章平均质量分 87
分享一些好文章
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
集智书童 | 从 Mamba 到 RWKV-SAM | 速度提高2倍,分类和语义分割都优于 Mamba 模型 !
基于Transformer的分割方法在处理高分辨率图像时面临着有效推理的挑战。最近,一些线性注意力架构,如Mamba和RWKV,因其能够高效处理长序列而受到广泛关注。在这项工作中,作者通过探索这些不同的架构来设计一个高效的“分割任何物体”模型。具体来说,作者设计了一个混合骨架,包含卷积和RWKV操作,它在准确性和效率上都取得了最佳效果。原创 2024-09-24 17:52:39 · 589 阅读 · 0 评论 -
周报 | 24.9.16-24.9.22文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-09-23 20:51:53 · 242 阅读 · 0 评论 -
极市平台 | 首个Mamba+Transformer混合架构多模态大模型来了,实现单卡千图推理
LongLLaVA(长上下文大型语言和视觉助手)这一创新性混合架构模型,在长上下文多模态理解方面表现出色。该模型集成了 Mamba 和 Transformer 模块,利用多个图像之间的时空依赖性构建数据,并采用渐进式训练策略。原创 2024-09-22 17:34:04 · 1090 阅读 · 0 评论 -
机器学习算法那些事 | TPAMI 2024.9 | FeatAug-DETR:通过特征增强丰富DETRs的一对多匹配
这篇论文提出了一种新方法,通过增强特征(而不仅仅是图像数据)来提升DETR(检测转换器)在目标检测任务中的性能。论文的主要贡献包括:一对多匹配的创新和特征增强。原创 2024-09-22 17:27:02 · 879 阅读 · 0 评论 -
算法进阶 | KAN模型在时间序列预测有效吗?
Kolmogorov-Arnold网络(KAN)的提出为深度学习领域带来了一些新意,它作为多层感知器(MLP)的一种替代方案,展现了新的可能性。近期,随着论文《KAN4TSF: KAN和基于KAN的模型对时间序列预测有效吗?》中引入的可逆KAN混合模型(Reversible Mixture of KAN, RMoK)号称能够提高KAN的性能。本文将深入探讨RMoK模型的架构和内部机制,并通过Python实现一个小型实验来验证其性能。原创 2024-09-21 21:43:13 · 1155 阅读 · 0 评论 -
Coggle数据科学 | 科大讯飞AI大赛:玉米雄穗识别挑战赛
随着中国经济发展和人口增长,对农业生产的需求不断增加,玉米作为重要的粮食作物之一,一直处于国家粮食安全和生态保护的重要位置。玉米制种产业是玉米生产的基础保障。随着玉米制种技术的不断发展,不育系生产由于无需去雄,节省劳动力,已经越来越普及。在玉米种子生产过程中,母本去雄作为种子纯度保障至关重要的环节,准确识别母本去雄后残留雄穗并去除是提升种子质量的重要手段。原创 2024-09-20 22:33:19 · 344 阅读 · 0 评论 -
小白学视觉 | Python — 将非方形图像转换为方形图像
使用 CV2 在 Python 中以编程方式完成如下操作:将非方形图像转换为方形图像。因此,6 年来,我第一次将一些图片上传到 Instagram。我画了一些愚蠢的漫画,想上传它来娱乐一下。然而,问题:我有 10 张图片要上传每个图像都有不同的尺寸Instagram 会自动将你的图像 (ew) 裁剪为:方形4:5 纵横比9:16 纵横比所以我需要一种方法来为我的图像添加白色填充,使它们都是正方形。原创 2024-09-19 17:47:52 · 253 阅读 · 0 评论 -
我爱计算机视觉 | 视频生成game-changer来了!贾佳亚团队提出下一代 ControlNet
在人工智能领域,生成模型尤其是扩散模型,已经在图像、视频生成方面展现出了卓越的能力。近日,更强大的game-changer来了!原创 2024-09-18 09:28:23 · 864 阅读 · 0 评论 -
周报 | 24.9.9-24.9.15文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-09-16 19:20:47 · 1248 阅读 · 0 评论 -
小白学视觉 | 在OpenCV中进行图像预处理
形态学操作是在二值图像上进行的。二值图像可能包含许多不完美之处。特别是由一些简单的阈值操作产生的二值图像(如果你对阈值不熟悉,现在不用担心)可能包含许多噪声和畸变。OpenCV库中提供了不同的形态学操作来处理这些噪声和缺陷。原创 2024-09-15 21:50:26 · 845 阅读 · 0 评论 -
数据分析1480 | 汇总17个工作必备的Python自动化代码(下)建议收藏!
您是否厌倦了在日常工作中做那些重复性的任务?简单但多功能的Python脚本可以解决您的问题。我们将通过上下两个篇章为您介绍17个能够自动执行各种任务并提高工作效率Python脚本及其代码。无论您是开发人员、数据分析师,还是只是希望简化工作流程的人,这些脚本都能满足您的需求。之前的9个案例看上一篇文章。原创 2024-09-13 10:28:58 · 1563 阅读 · 0 评论 -
数据分析1480 | 汇总17个工作必备的Python自动化代码(上)建议收藏!
您是否厌倦了在日常工作中做那些重复性的任务?简单但多功能的Python脚本可以解决您的问题。我们将通过上下两个篇章为您介绍17个能够自动执行各种任务并提高工作效率Python脚本及其代码。无论您是开发人员、数据分析师,还是只是希望简化工作流程的人,这些脚本都能满足您的需求。Python是一种流行的编程语言,以其简单性和可读性而闻名。因其能够提供大量的库和模块,它成为了自动化各种任务的绝佳选择。原创 2024-09-13 09:30:14 · 1163 阅读 · 0 评论 -
Coggle数据科学 | 小白学 RAG:Milvus 介绍与使用教程
Milvus 是一款高性能、高扩展性的开源向量数据库,专为处理海量向量数据的实时召回而设计。它基于 FAISS、Annoy、HNSW 等向量搜索库构建,核心功能是解决稠密向量相似度检索的问题。Milvus 不仅支持基本的向量检索,还提供数据分区分片、数据持久化、增量数据摄取、标量向量混合查询、time travel 等功能,同时优化了向量检索的性能,以满足各种向量检索场景的应用需求。Milvus 的架构设计采用了云原生技术,支持存储与计算分离,使得计算节点可以横向扩展。原创 2024-09-12 17:38:48 · 1116 阅读 · 0 评论 -
集智书童 | 多教师特权知识精馏在多模态表达识别中的应用 !
人类的情感是一种复杂的现象,通过面部表情、声音语调、身体语言和生理信号来传达和感知。多模态情感识别系统可以表现良好,因为它们可以从不同的传感器中学习互补和冗余的语义信息。在现实世界的场景中,测试时可能只存在用于训练的部分模态。学习特权信息允许模型利用在训练期间才可用的额外模态的数据。原创 2024-09-11 17:44:45 · 808 阅读 · 0 评论 -
周报 | 24.9.2-24.9.8文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-09-09 17:42:24 · 847 阅读 · 0 评论 -
机器学习初学者 | 27 个Python数据科学库实战案例 (附代码,建议收藏!)
为了大家能够对人工智能常用的 Python 库有一个初步的了解,以选择能够满足自己需求的库进行学习,对目前较为常见的人工智能库进行简要全面的介绍。原创 2024-09-09 17:37:57 · 1417 阅读 · 0 评论 -
OpenMMLab | AI玩家已上线!和InternLM解锁“谁是卧底”新玩法
在大模型技术日益普及的今天,AI 的应用已经渗透到各个领域,带来了无数创新和乐趣。今天,我们将一起探索如何搭建一个 AI 版的“谁是卧底”游戏。通过 InternStudio 和 SiliconCloud 平台,你将学会如何配置环境、调用大模型接口,最后和 internlm2_5-20b-chat 展开一场关于“谁是卧底”的脑力对决。原创 2024-09-08 17:35:49 · 1123 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战 | OpenCV传统方法实现密集圆形分割与计数(详细步骤 + 代码)
本文主要介绍基于OpenCV传统方法实现密集圆形分割与计数应用,并给详细步骤和代码。原创 2024-09-03 17:49:36 · 386 阅读 · 0 评论 -
周报 | 24.8.26-24.9.1文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-09-02 10:09:56 · 940 阅读 · 0 评论 -
集智书童 | 一文全览 | 知识蒸馏算法汇总(建议收藏!)
知识蒸馏有两大类:一类是「logits蒸馏」,另一类是「特征蒸馏」。「logits蒸馏」指的是在softmax时使用较高的温度系数,提升负标签的信息,然后使用Student和Teacher在高温softmax下logits的KL散度作为loss。原创 2024-09-02 10:08:50 · 651 阅读 · 0 评论 -
江大白 | 大模型时代,CV目标检测任务,会走向何方?
目标检测现在都在干啥?大模型时代都有哪些思考?本文细数从常见的目标检测到现在MLLM盛行的时代,和Object Detection的任务以及近期涌现的新任务。如果读者也做目标检测,这篇文章很适合您拓宽思路!原创 2024-09-01 10:36:15 · 852 阅读 · 0 评论 -
萝卜大杂烩 | 用Python做一个游戏辅助脚本,完整编程思路分享!
简述:本文将以4399小游戏《 宠物连连看经典版2 》作为测试案例,通过识别小图标,模拟鼠标点击,快速完成配对。对于有兴趣学习游戏脚本的同学有一定的帮助。原创 2024-08-31 15:14:17 · 857 阅读 · 0 评论 -
OpenCV与AI深度学习 | 深入浅出了解OCR识别票据原理
光学字符识别技术(OCR)目前被广泛利用在手写识别、打印识别及文本图像识别等相关领域。小到文档识别、银行卡身份证识别,大到广告、海报。因为OCR技术的发明,极大简化了我们处理数据的方式。原创 2024-08-30 20:14:46 · 1624 阅读 · 0 评论 -
机器学习算法与Python实战 | 8个特征工程技术,提高机器学习预测能力
在机器学习方面,人们可以采取的改进 ML 模型预测的方法是选择正确的特征并删除对模型性能影响微不足道的特征。因此,选择正确的特征可能是数据科学家或机器学习工程师需要做的最重要的步骤之一,他们通常负责构建那些能够很好地概括测试数据集的复杂模型。原创 2024-08-28 18:02:27 · 1236 阅读 · 0 评论 -
机器学习算法与Python学习 | 黑匣子被打开了?能玩的Transformer可视化解释工具!
2017 年,谷歌在论文《Attention is all you need》中提出了 Transformer,成为了深度学习领域的重大突破。该论文的引用数已经将近 13 万,后来的 GPT 家族所有模型也都是基于 Transformer 架构,可见其影响之广。作为一种神经网络架构,Transformer 在从文本到视觉的多样任务中广受欢迎,尤其是在当前火热的 AI 聊天机器人领域。原创 2024-08-27 17:34:36 · 724 阅读 · 0 评论 -
周报 | 24.8.19-24.8.25文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-08-26 20:09:46 · 720 阅读 · 0 评论 -
kaggle竞赛宝典 | 量化竞赛第一名的网络模型
今天我们重温Jane Street 大赛第一名的网络模型。该次赛事数据集包含了一组匿名的特征,feature_{0...129},代表真实的股市数据。数据集中的每一行代表一个交易机会,你需要预测一个动作值:1表示进行交易,0表示放弃。每笔交易都有一个相关的权重和响应,它们一起代表交易的回报。日期列是一个整数,表示交易的日期,而ts_id表示时间顺序。原创 2024-08-25 17:06:40 · 759 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于改进YOLOv8的景区行人检测算法
本文研究旨在解决景区行人检测中YOLOv8检测精度较低且参数量较大等问题。首先创建了TAPDataset数据集,并在YOLOv8的基础上,以DepthSepConv作为基本卷积模块,对整个网络进行轻量化处理,提高模型的计算效率和泛化能力;然后引入BiFormer注意力机制,以实现更灵活的计算分配和内容感知;虽后引入轻量化上采样算子CARAFE,在较大的感受野内聚合上下文信息,提高算法的检测速度和检测精度;最后增加一层小目标检测层,将目标检测层由三层变为四层,提升模型对小目标的检测能力。原创 2024-08-24 21:05:00 · 636 阅读 · 0 评论 -
计算机视觉研究院 | 2024新技术:远距离的小目标也可以准确检测
目前的OD算法对于长距离的小物体的成功率有限。为了提高这项任务的准确性和效率,我们提出了一套新的算法,将图像划分为块,选择具有不同尺度对象的块,详细说明小对象的细节,并尽早检测到它。我们的方法建立在transformer的网络上,并集成了扩散模型以提高检测精度。如在BDD100K,我们的算法将小目标的mAP从1.03提高到8.93,并将计算中的数据量减少了77%以上。原创 2024-08-23 17:52:50 · 956 阅读 · 0 评论 -
OpenCV与AI深度学习 | 使用OpenCV图像修复技术去除眩光
眩光是一种因过度和不受控制的亮度而引起的视觉感觉。眩光可能会使人丧失能力或只是让人感到不舒服。眩光是一种主观感受,对眩光的敏感度可能有很大差异。老年人通常对眩光更敏感,这是由于眼睛的老化特性。原创 2024-08-22 17:36:35 · 1060 阅读 · 0 评论 -
小白学视觉 | 基于OpenCV的气体泵扫描仪数字识别系统
我们编写了一个简单的Python应用程序以拍摄汽油泵的图像,然后尝试从中读取数字。OpenCV是用于计算机视觉应用程序的流行的跨平台库。它包括各种图像处理实用程序以及某些机器学习功能。除此之外我们希望可以先使用Python对其进行原型设计,然后将处理代码转换为C ++以在iOS应用程序上运行。原创 2024-08-21 17:45:37 · 1184 阅读 · 0 评论 -
OpenCV学堂 | 汇总 | 深度学习图像去模糊技术与模型
图像模糊通常是由于图像在采集或传输过程中发生的振动、抖动、光线不足或运动模糊等原因导致的。图像去模糊的目标是通过恢复原始图像的清晰细节和轮廓,使图像更加清晰可见。在图像去模糊方面取得了显著成效。图像去模糊技术分类如下:深度自编码器对抗生成网络级联网络多尺度网络重模糊网络。原创 2024-08-20 14:04:27 · 1137 阅读 · 0 评论 -
周报 | 24.8.12-24.8.18文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-08-19 20:13:10 · 983 阅读 · 0 评论 -
OpenMMLab | 不是吧?这么好用的开源标注工具,竟然还有人不知道…
在人工智能和机器学习领域,高质量的数据标注是模型训练的关键。正是基于这一需求,我们为您推荐LabelU,一个强大且易用的多模态数据标注工具,涵盖图像、视频、音频等多种类型的数据。LabelU不仅提供了丰富、灵活的标注功能,还支持多种格式的数据导出,可本地部署及二次开发“魔改”,让您的AI项目如虎添翼。原创 2024-08-18 17:26:25 · 761 阅读 · 0 评论 -
集智书童 | SAM2 在图像分割中是否优于 SAM ?
任何部位分割模型(SAM)在自然图像的零样本提示可分割性方面表现出色。最近发布的任何部位分割模型2(SAM 2)声称在图像方面的性能优于SAM,同时将模型的能力扩展到视频分割。在一个零样本提示可分割性的医疗图像中评估最近模型的能力非常重要。在本研究中,作者对来自不同成像模式的多个数据集进行了广泛研究,以比较SAM和SAM 2之间的性能。原创 2024-08-18 17:09:20 · 726 阅读 · 0 评论 -
程序员学长 | 最强总结! 深度学习中常见的权重初始化方法
今天给大家分享常见的 7 种权重初始化方法。初始化深度学习模型的权重是影响模型训练速度、稳定性以及最终性能的重要因素。以下是常见的 7 种权重初始化方法,每种方法都有其适用的场景和特性。原创 2024-08-17 21:31:40 · 901 阅读 · 0 评论 -
江大白 | AI算法工程化落地,CUDA开发心得汇总
CUDA编程在AI工程化过程中,是非常重要的一部分。本文详细汇总了作者对于CUDA开发过程中的一些心得和经验,希望对大家有帮助。原创 2024-08-14 21:52:42 · 1024 阅读 · 0 评论 -
程序员学长 | 快速学习一个算法,集成学习
今天给大家分享一个强大的算法模型,集成学习是一种提升模型性能和鲁棒性的重要方法,它通过组合多个学习器(通常称为基学习器)来解决同一个问题。它的核心思想是,即通过整合多个模型的预测结果,可以抵消单个模型的偏差和方差,从而提升整体的预测准确性和泛化能力。集成学习在各种复杂任务中,如分类、回归、异常检测等,显示出了强大的效果。集成学习主要分为以下几种类型。原创 2024-08-13 20:02:07 · 882 阅读 · 0 评论 -
周报 | 24.8.5-24.8.11文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-08-12 21:09:11 · 1026 阅读 · 0 评论 -
集智书童 | CNN 与 Transformer 的强强联合:AResNet-ViT在图像分析中的优势 !
作者针对残差CNN分支的注意力引导设计进行了消融实验。同时,作者还分别对CNN分支和Transformer分支进行了架构消融实验,以及将两个分支结合使用的实验。此外,作者将提出的AResNet-ViT网络与经典分类模型的性能进行了比较,并对比了过去三年内发表的三篇论文的结果。原创 2024-08-11 19:51:13 · 1125 阅读 · 0 评论