深度学习拓展阅读
文章平均质量分 87
分享一些好文章
双木的木
种一棵树最好的时间是十年前,其次是现在。
展开
-
集智书童 | YOLOv8架构的改进:POLO 模型在多类目标检测中的突破 !
基于无人机影像和目标检测技术的自动化野生动物调查已成为保护生物学中一种强大且日益流行的工具。大多数检测器需要使用带有标注边界框的训练图像,这种做法既费时又费钱,而且并不总是明确。为了减少这种做法带来的标注负担,作者开发了POLO,这是一种可以在仅使用点标签进行训练的多类目标检测模型。原创 2024-11-13 17:20:29 · 375 阅读 · 0 评论 -
Coggle数据科学 | RAG编码模型对比:谁与OpenAI最为相似?
在设计检索增强型生成(RAG)系统时,选择嵌入模型是一个关键步骤。鉴于可选模型很多,识别相似模型可以帮助进行模型选择。原创 2024-11-13 17:19:25 · 327 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于YoloV11自定义数据集实现车辆事故检测(有源码,建议收藏!)
在智能交通系统领域,实时检测车辆事故的能力变得越来越重要。该项目利用先进的计算机视觉技术,采用最先进的对象检测模型 YOLOv11 来准确识别和分类车辆事故。主要目标是通过向紧急服务提供及时警报并实现更快的响应时间来提高道路安全。原创 2024-11-12 17:45:20 · 566 阅读 · 0 评论 -
机器之心 | 真·打字P图!字节发布新模型SeedEdit,一句话爆改世界名画,可免费体验
字节豆包大模型又又又上新了!11 月 11 日,字节跳动豆包大模型团队推出了最新图像编辑模型 SeedEdit,主打一句话轻松 P 图。它是国内首个产品化的通用图像编辑模型,无需描边涂抹,仅使用简单的自然语言,就能换背景、转风格,或者在指定区域进行元素的增删和替换。原创 2024-11-12 14:24:33 · 359 阅读 · 0 评论 -
极市平台 | CUDA开发总结笔记
本文不是一篇教程,而是笔者的一篇总结笔记,概括性地整理CUDA开发相关的经验和知识。原创 2024-11-11 18:12:25 · 589 阅读 · 0 评论 -
周报 | 24.11.4-24.11.10文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-11-11 14:59:53 · 410 阅读 · 0 评论 -
集智书童 | 无需额外训练,基于 Llama-2模型,通过 Model-GLUE 实现大规模语言模型的聚合与集成 !
随着大型语言模型(LLMs)在各种任务和专业化领域中的出色表现,基于现有模型的LLM扩展引起了广泛关注,但当将不同模型结合时,性能可能会降低。为了汇总预训练的LLM,已提出了各种技术,包括模型合并、混合专家和堆叠。尽管它们具有优点,但尚未对它们进行全面比较和综合应用到多样化的模型动物园中。鉴于这一研究空白,本文引入了Model-GLUE,这是一个全面的LLM扩展指南。首先,作者的工作从现有的LLM扩展技术基准开始,特别是选择性合并和混合的变体。利用基准结果的洞察,作者制定了一个策略,用于原创 2024-11-10 17:40:50 · 782 阅读 · 0 评论 -
程序员学长 | 最强总结,机器学习中处理不平衡数据集的五种方法!!
不平衡数据集是指在分类任务中,不同类别的样本数量差异显著的数据集,通常表现为少数类样本远少于多数类样本。这样的数据集在现实生活中很常见,比如欺诈检测、医疗诊断、故障预测等场景。原创 2024-11-09 22:20:29 · 829 阅读 · 0 评论 -
集智书童 | DuoDiff: 提升浅层 Transformer 性能的扩散模型, 双 Backbone 件扩散模型在图像处理中的应用 !
扩散模型[21]在各种模态的生成任务上近期展现了令人印象深刻的表现,包括图像[6; 3],视频[7; 8],音频[12],以及分子[9]。然而,使用扩散模型生成新样本的过程可能较慢,因为需要多次调用去噪网络[25]。为了提高采样效率[26],一些最具前景的方法关注于减少采样步骤(例如,DDIM[22]和基于蒸馏的方法[19; 15])或改变采样空间(例如,潜在扩散[18])。原创 2024-11-08 17:20:07 · 1047 阅读 · 0 评论 -
kaggle竞赛宝典 | 高维多变量下的Transformer时序预测建模方法
今天给大家介绍一篇CIKM 2024中的时间序列预测工作,这篇文章针对高维多变量时序预测问题,提出了一种基于Transformer的建模方法。原创 2024-11-08 17:07:58 · 553 阅读 · 0 评论 -
江大白 | 小目标物体检测方法:基于距离相似度的标签分配策略(附论文及源码)
在计算机视觉中,小目标检测由于信息不足而具有挑战性。对此,本文提出相似距离(SimD)策略,提升检测准确性。SimD自适应学习超参数,适应不同数据集和物体大小,在多个数据集上表现出色,特别是在AI-TOD数据集上显著提高精度,且无需设置超参数!原创 2024-11-07 17:34:21 · 1039 阅读 · 0 评论 -
集智书童 | UniMatch V2 推进半监督语义分割极限,以更低训练成本实现更优的语义分割结果-建议收藏!
半监督语义分割(Semi-supervised semantic segmentation, SSS)的目标是利用便宜的无标签图像学习丰富的视觉知识,以提高语义分割能力。在最近的的工作中,UniMatch [1]极大地改进了其先驱,通过放大弱到强的一致性正则化实践。后续的工作通常遵循类似的工作流程,并提出各种精致的设计。原创 2024-11-06 17:57:34 · 915 阅读 · 0 评论 -
Coggle数据科学 | 小白学大模型:斯坦福CS25 Transformers与LLMs(图文并茂!)
CS25: Transformers United V4 是斯坦福大学(Stanford University)在2024年春季开设的一门课程,从4月4日持续到5月30日。这门课程专注于深度学习领域中的Transformers和大模型。原创 2024-11-06 17:53:27 · 757 阅读 · 0 评论 -
WeThinkIn | 谷歌科学家万字长文:《改变你职业生涯的一篇文章,我如何运用人工智能完成工作》建议每个人都要读一遍(已收藏)!
在当今科技界,关于人工智能是否被过度炒作的争论从未停息。然而,很少有像谷歌 DeepMind 的安全研究专家和机器学习科学家 Nicholas Carlini 这样的专家,用亲身经历为我们提供了一个独特的视角。通过他的文章,我们看到了大型语言模型(LLM)在实际应用中的强大能力和多样性。这些并非空洞的营销宣传,而是切实可以改变工作方式、提高生产效率、激发创意的工具。原创 2024-11-05 17:53:10 · 839 阅读 · 0 评论 -
OpenCV与AI深度学习 | 超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务
D-FINE 的作者均来自中国科学技术大学。第一作者为中科大在读博士生彭岩松 (https://scholar.google.com/citations?user=CTidez8AAAAJ&hl=zh-CN),其研究方向为实时目标检测以及神经形态视觉,已在 AAAI、ICCV、CVPR 等国际顶级会议上以第一作者身份发表多篇论文。本文由吴枫教授、孙晓艳教授和张越一副研究员共同指导,其他作者包括中科大博士生李和倍及硕士生吴沛熹。原创 2024-11-05 17:51:15 · 781 阅读 · 0 评论 -
极市平台 | NeurIPS 2024|浙大/微信/清华提出:彻底解决扩散模型反演问题
本文介绍了浙江大学、微信和清华大学联合提出的BELM算法,这是一种基于双向显式线性多步法的扩散模型精确反演采样器,它能够彻底解决扩散模型反演问题,同时提升生成样本的质量。BELM算法通过截断误差分析确定了最优采样器系数,具有精确反演性质,并在图像与视频编辑、插值等下游任务中展现出广泛的应用前景原创 2024-11-04 20:16:58 · 789 阅读 · 0 评论 -
周报 | 24.10.28-24.11.3文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-11-04 16:43:44 · 719 阅读 · 0 评论 -
一个数据人的自留地 | 用ChatGPT做数据分析与挖掘,爽!
在现代数据分析中,Python凭借其强大的数据处理能力和丰富的库资源成为首选工具。ChatGPT,作为先进的自然语言处理模型,正逐步成为Python数据分析与挖掘的强大辅助工具。通过ChatGPT的自然语言处理能力,用户可以轻松生成代码、解释数据模型和优化算法,极大地提升了数据分析的效率和准确性。无论是数据清洗、特征工程还是建模预测,ChatGPT都能提供智能建议,助力数据分析人员更快地实现数据洞察和商业价值。原创 2024-11-03 17:32:43 · 1038 阅读 · 0 评论 -
kaggle竞赛宝典 | LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
LLM-Mixer通过结合多尺度时间序列分解和预训练的LLMs,提高了时间序列预测的准确性。它利用多个时间分辨率有效地捕捉短期和长期模式,增强了模型的预测能力。实验表明,LLM-Mixer在各种数据集上实现了具有竞争力的性能,优于最新的最先进方法。原创 2024-11-03 17:30:28 · 636 阅读 · 0 评论 -
集智书童 | 利用知识蒸馏算法优化 YOLOv5 目标检测 !
这篇论文探讨了知识蒸馏技术在目标检测任务中的应用,尤其是不同蒸馏温度对学生模型性能的影响。通过将YOLOv5s作为教师网络和较小的YOLOv5s作为学生网络,作者发现,随着蒸馏温度的增加,学生的检测准确性逐渐提高,最终在特定温度下实现了mAP50和mAP50-95指标,这些指标优于原始的YOLOv5s模型。原创 2024-11-02 00:30:00 · 682 阅读 · 0 评论 -
OpenCV学堂 | OpenCV中支持的人脸检测方法整理与汇总
自从VJ在2004发表了关于级联分类器实时对象检测的论文以后,级联分类器就在OpenCV中落地生根了,一段时间,特别是OpenCV3.x版本中基于级联分类器的人脸检测一直是标配,虽然大家刚开始看了例子之后觉得这个是一个很实用的功能,但是在实际实用中级联分类器的人脸检测方法则是频频翻车,我自己曾经移植到Android上面玩过,日常就是两个字“翻车”,很多时候都无法达到开发者想要的稳定性与实时性能。但是这个并不妨碍它作为OpenCV3.x的一大关注点,还产生了无数的Demo演示程序。但是如今已经是OpenCV4原创 2024-11-01 16:53:28 · 692 阅读 · 0 评论 -
计算机视觉研究院 | 性能&耗时完爆YOLOv11,RT-DETRv3真正的实时端到端目标检测算法
RT-DETR是第一个基于实时端到端Transformer的目标检测器。其效率来源于框架设计和Hungarian matching。然而与YOLO系列等密集的监督检测器相比,Hungarian matching提供了更稀疏的监督,导致模型训练不足,难以达到最佳结果。原创 2024-11-01 15:05:49 · 940 阅读 · 0 评论 -
OpenCV与AI深度学习 | 基于OpenCV和深度学习预测年龄和性别
OpenCV 是“开源计算机视觉”的缩写。从名称上看,它是一个开源计算机视觉和机器学习库。该库能够处理实时图像和视频,同时还具有分析能力。它支持深度学习框架TensorFlow、Caffe 和 PyTorch。原创 2024-10-31 21:58:19 · 801 阅读 · 0 评论 -
极市平台 | ECCV‘24|Plain-Det:同时支持多数据集训练的新目标检测
论文提出了Plain-Det,提供了灵活性以适应新的数据集,具有跨多样数据集的稳健性能、训练效率和与各种检测架构的兼容性。结合Def-DETR和Plain-Det,在COCO上达到51.9的mAP,匹配当前最先进的检测器。在13个下游数据集上进行了广泛的实验,Plain-Det展现了强大的泛化能力。原创 2024-10-30 17:15:56 · 734 阅读 · 0 评论 -
OpenCV与AI深度学习 | OpenCV快速傅里叶变换(FFT)用于图像和视频流的模糊检测(建议收藏!)
在本教程中,您将学习如何使用OpenCV和快速傅里叶变换(FFT)在图像和实时视流中执行模糊检测。原创 2024-10-30 16:46:41 · 909 阅读 · 0 评论 -
江大白 | 跨界融合创新,基于YOLO11和Ollama的增强OCR文本识别
本文介绍一种通过自定义YOLOv11和EasyOCR,结合Ollama优化OCR效果的方法,解决了传统OCR在复杂图像中的识别难题,显著提高了准确性,为高精度文本提取提供了有效方案。原创 2024-10-29 15:05:16 · 1077 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战 | YOLO11自定义数据集训练实现缺陷检测 (标注+训练+预测 保姆级教程)
本文将手把手教你用YOLO11训练自己的数据集并实现缺陷检测。原创 2024-10-29 14:00:55 · 1248 阅读 · 0 评论 -
周报 | 24.10.21-24.10.27文章汇总
为了更好地整理文章和发表接下来的文章,以后每周都汇总一份周报。好的文章值得反复学习!原创 2024-10-28 17:51:50 · 631 阅读 · 0 评论 -
极市平台 | 垂直领域大模型的思考,推荐学习!
本文将系统介绍如何做一个垂直领域的大模型,包括继续预训练,领域微调数据构建,减缓幻觉,知识召回多个方面。也会介绍整体的系统设计,并串讲一系列相关的论文和产品。原创 2024-10-28 17:39:19 · 1090 阅读 · 0 评论 -
集智书童 | 0.26M 参数,0.483 GFLOPs,EfficientCrackNet 轻量级检测模型 !
EfficientCrackNet是一个轻量级的混合模型,旨在在基础设施维护中自动检测和分割裂纹。它结合了DSC和MobileViT块,以捕获全局和局部特征,提高分割精度。该模型使用了一种创新性的EEM,结合了DoG和LoG进行特征提取,无需额外训练,并集成了ULSAM以改进特征表示。EfficientCrackNet在三个基准数据集上实现了最先进的结果,仅需0.26M参数和0.483 GFLOPs,使其成为实际应用的理想选择。原创 2024-10-27 08:30:00 · 673 阅读 · 0 评论 -
python | reflex,一个无敌的 Python 库!
Python Reflex 是一个功能强大、灵活且轻量级的事件驱动编程库,适合处理各种异步任务和事件驱动的系统。无论是用户界面的交互处理、网络事件响应,还是系统信号处理,Reflex 都能帮助开发者轻松应对复杂的事件流,并提升应用程序的可扩展性和响应速度。原创 2024-10-27 03:45:00 · 551 阅读 · 0 评论 -
小白学视觉 | PE-YOLO:解决黑夜中的目标检测难点
为了解决这个问题,有研究者提出了一个金字塔增强网络(pyramid enhanced network,PENet),并将其与YOLOv3结合起来,构建了一个名为PE-YOLO的暗目标检测框架。首先,PENet使用拉普拉斯金字塔将图像分解为不同分辨率的四个分量。原创 2024-10-26 21:26:12 · 499 阅读 · 0 评论 -
一个数据人的自留地 | 如何提升用户画像标签质量及信任度?
用户画像标签的准确性和业务的信任度是用户画像标签建设和CDP(Customer Data Platform,客户数据平台)产品中的核心痛点,主要体现在下面几个方面。原创 2024-10-26 21:24:29 · 668 阅读 · 0 评论 -
WeThinkIn | 从图像到视频:浅谈Video Diffusion Models背后的底层原理
Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章原创 2024-10-25 17:40:03 · 989 阅读 · 0 评论 -
OpenCV与AI深度学习 | 实战 | OpenCV中更稳更快的找圆方法--EdgeDrawing使用演示(详细步骤 + 代码)
本文主要介绍如何在OpenCV中使用EdgeDrawing模块查找圆(详细步骤 + 代码)。原创 2024-10-25 17:34:44 · 904 阅读 · 0 评论 -
CV技术指南 | DetailCLIP 通过自蒸馏和像素级重建提升视觉语言模型的分割精度 !
在本文中,作者提出了DetailCLIP:一种面向细节的CLIP,以解决基于对比学习的视觉语言模型的局限性,尤其是在处理面向细节和细粒度任务(如分割)方面。尽管CLIP及其变体在图像和文本表示的整体对齐方面表现出色,但它们通常难以捕捉精确分割所必需的细粒度细节。为了解决这些问题,作者提出了一种新的框架,该框架采用自蒸馏和像素级重建损失的层次比较,并增强了一个基于注意力的标记删除机制。这种方法选择性地保留语义相关的标记,使模型能够专注于与作者的模型特定功能(包括文本处理、标记比较和图像重建)对齐的图像关键区域原创 2024-10-24 17:36:57 · 690 阅读 · 0 评论 -
Coggle数据科学 | CSIG挑战赛飞桨-工银瑞信赛道 baseline
股票市场是一个充满挑战与机遇的领域,其动态变化的特性要求投资者具备敏锐的洞察力和高效的决策能力。近年来,随着计算机视觉技术的飞速发展,其在金融领域的应用也逐渐受到广泛关注。原创 2024-10-24 05:15:00 · 929 阅读 · 0 评论 -
江大白 | 万字长文!人体姿态估计入门详细教程(推荐收藏!)
基于视觉的单目人体姿势估计,是计算机视觉中最基本和最具挑战性的问题之一,旨在从输入图像或视频序列中获取人体姿势。本文作者总结了人体姿态估计入门需要学习的一些知识,在学习过程中的一些感悟和踩过的坑,列举主要的工作脉络和一些细节。全文较长,建议先收藏再阅读!原创 2024-10-23 17:23:07 · 1633 阅读 · 0 评论 -
python | Python文本处理中的相似性识别应用
在自然语言处理和文本分析的领域,字符串匹配和识别文本相似性是常见的问题。无论是文本数据清洗、文本分类,还是文本检索,如何高效地匹配字符串或识别文本之间的相似性,都至关重要。Python提供了多种库和工具来实现这些功能,能够帮助开发者快速处理字符串匹配和相似性识别问题。原创 2024-10-23 17:21:17 · 1114 阅读 · 0 评论 -
OpenMMLab | S4模型详解:应对长序列建模的有效方法
序列建模的一个核心问题在于长距离依赖关系 (long-range dependencies, LRD)。一个有潜力的方法是模拟状态空间模型 (state space model, SSM),它从理论和实践上被验证,当选取一些特殊参数时(参考 HiPPO),可以处理 LRD,然而有着极高的计算与内存要求。这篇论文基于 SSM 的新参数化提出 Structured State Space sequence model (S4),并证明了它可以在保留理论优势的同时大幅降低时间、空间复杂度。原创 2024-10-22 17:20:13 · 427 阅读 · 0 评论
分享