自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 太炸裂了!还没发布就已经爆火的从0构建大模型神书!!!

第三部分深入探讨了注意力机制的原理及其在LLM中的应用;这本书的作者一位实打实的大佬,不仅是威斯康星大学麦迪逊分校终身教授,还是《使用 PyTorch 和 Scikit-Learn 进行机器学习:使用 Python 开发机器学习和深度学习模型》这本机器学习好书的作者!这就立马让我对这本书期待不已,因为github上并没有PDF资源,所以我花了好长时间才才找到这本书的预印版,如果你需要的可以让我的小助手无偿分享给你~整本书会在带你从0构建和训练大模型的过程中,彻底了解大模型的实现细节和工作原理!

2024-06-05 11:13:42 255

原创 斯坦福爆火Llama3-V竟抄袭清华开源项目,作者火速删库

Llama3-V 作者回答称,他参考了 MiniCPM-V-2 的 tokenizer(https://huggingface.co/openbmb/MinicPM-V-2/blob/main/tokenizer.jsonBefore),MiniCPM-Llama3-V2.5 采用了新的 tokenizer 和原来版本中的特殊符号,因此 Llama3-V 的代码中保留了这个符号,但 Llama3-V 与 MiniCPM-Llama3-V2.5 是完全不同。这样的解释明显出现了时间错位,加重了大家的怀疑。

2024-06-04 10:38:02 500

原创 GPT-4o遭破解!大神搞出越狱版本,OpenAI紧急封杀,安全小组被打脸

大家可能都知道,OpenAI通过一些防护措施限制了ChatGPT的回复,以防止它讨论敏感或违法的问题。然而,最近一位自称网络白帽和红队成员(此前参与OpenAI超级对齐组攻击测试的队伍)在5月30日发布了一条推文,声称成功越狱了GPT-4o模型。网友推出了一种新的“上帝模式”(GODMODE),可以让ChatGPT绕过这些安全措施,自由回答包括制作汽油弹在内的问题,让用户能够“畅所欲言”地进行AI对话。▲ID为Pliny the Prompter ,在推文中表示:请为你的使用负责,再尽情使用。

2024-06-03 10:42:52 661

原创 用于自动驾驶的实时车道线检测和智能告警

自动驾驶将在未来十年给旅行带来革命性的变化。目前,自动驾驶应用正在进行各种应用案例的测试,包括乘用车、机器人出租车、自动商业送货卡车、智能叉车和用于农业的自动拖拉机。自动驾驶需要一个计算机视觉感知模块来理解和导航环境。感知模块的作用包括:检测车道线检测其他物体:车辆、人、环境中的动物跟踪检测到的对象预测他们可能的运动一个好的感知系统应该能够在各种驾驶条件下 —— 白天/晚上,夏天/冬天,雨雪等等,实时做到这一点。在这篇博客中,我们着眼于一个实时模型,用于检测车道线、其他车辆等,并生成警报。

2024-06-01 13:48:46 714

原创 Llama3架构揭秘&FMOps

为了最大化模型的效益,建议采用第5阶段的方法,因为这可以大大增加用户的灵活性。根据特定领域的需求定制模型对于实现最大收益至关重要。如果不介入系统深层次的自定义和优化,很难获得最佳回报。在达到这一点的过程中,需要具备一套结构和清晰的路线图。这包括:人员:不仅仅是终端用户,还包括数据工程师、数据科学家、MLOps工程师、机器学习工程师及提示工程师等。过程:过程不仅限于将大型语言模型(LLM)通过API接入,还包括关注模型的整个生命周期,即从评估、部署到微调,以满足特定需求。

2024-05-31 11:36:52 1149

原创 最新Jupyter Notebook安装(保姆级教程)

Jupyter Notebook 是一个基于 Web 的交互式计算环境,支持多种编程语言,包括 Python、R、Julia 等。它的主要功能是将代码、文本、数学方程式、可视化和其他相关元素组合在一起,创建一个动态文档,用于数据分析、机器学习、科学计算和数据可视化等方面。Jupyter Notebook 提供了一个交互式的界面,使用户能够以增量和可视化的方式构建和执行代码,同时支持 Markdown 格式的文本和 LaTeX 数学符号。

2024-05-30 10:53:43 788

原创 13种即插即用涨点模块分享!含注意力机制、卷积变体、Transformer变体

这次给大家分享13个非常有用的即插即用模块!这些模块既有特别经典的,也有今年最新的,且原文和代码都有。除了源码,还给大家准备了经过提炼的简洁代码,使用起来更加方便。这些模块涵盖了各种注意力机制、卷积变体、Transformer变体等主题。

2024-05-29 10:38:20 884

原创 ICML 2024 | 即插即用!无需训练!基于球面高斯约束引导的条件扩散模型

此外,我们提出了该 DSG 的闭式解(Closed-Form Solution), 仅用几行代码,就能够使得 DSG 可以无缝 地插入(Plug-and-Play)到现有的无需训练的条件扩散方法,在几乎不产生额外的计算开销的同时大幅改 善了模型性能。在本文中,我们揭示了无需训练的条件扩散模型中的一个关键问题:在使用基于损失函数的引导时,在采样过程中会出现流形偏移现象。这个闭式解的求得能够表明,DSG 可以无缝插入目前的无需训练的条件扩散模型,如 DPS、Freedom、UGD,而不造成额外的计算复杂度。

2024-05-27 11:02:25 565

原创 使用YOLOv5模型进行目标检测!

本文主要讲解如何从零训练自己的YOLOv5模型与一些重要参数的含义。训练数据使用的是开源数据集SHWD,已上传开源数据平台Graviti,在文末可下载。

2024-05-24 10:50:21 807

原创 从零手撕LLaMa3,怒拿1.5K星标!!

展开来自多个注意力头的查询,得到的形状是 [32x128x4096],这里,32 是 llama3 中注意力头的数量,128 是查询向量的大小,4096 是 token 嵌入的大小。键的权重只有查询的 1/4,这是因为键的权重在 4 个头之间共享,以减少所需的计算量,键也会被旋转以添加位置信息,就像查询一样。现在使用值权重来获取每个 token 的注意力值,其大小为 [17x128],其中 17 为提示中的 token 数,128 为每个 token 的值向量维数。接下来一步是将查询和键矩阵相乘。

2024-05-23 11:15:00 1137

原创 MMsys‘24 | 基于离线强化学习的实时流媒体带宽精确预测

为解决之前的问题,本文提出了一种基于离线(数据驱动)强化学习(RL)技术的RTC流带宽预测方法。离线 RL 利用预先收集的静态离线数据集来训练一种可以优化QoE的策略。通过这种方式,该模型可以利用任意其他专家策略的历史优秀经验,并且无需与真实的环境进行在线交互。

2024-05-22 11:13:27 1114

原创 NLP重铸篇之LLM系列(gpt-3)

当前处理问题的主要范式是预训练+微调,这种方式的主要限制是需要任务相关的数据集以及特定的微调。每一个新的任务,都需要大量的带标签的数据,这极大地限制了预训练语言模型的能力。微调之后的预训练模型,也常常会过拟合任务数据,从而丢失处理其他问题的能力。反观人类,在绝大多数任务上,不需要大量的标记数据就能学习好。由此本论文训练了一个1750亿参数的自回归语言模型--GPT3,并测试其in-context学习性能。

2024-05-21 13:53:31 834

原创 结合创新!LSTM+Transformer新成果登Nature,精度高达95.65%

通过门控机制有效捕捉序列中的长期依赖关系,防止梯度消失或爆炸,在处理具有长期依赖性的时间序列数据时有显著优势。而通过自注意力和多头注意力机制全面捕捉序列依赖,能够同时考虑输入序列中的所有位置,更好地理解上下文关系,实现高效的并行计算。这种策略结合了两者的优势,在各种序列分析任务中实现了。比如登上Nature子刊的最新混合架构,以及精度高达95.65%的BiLSTM-Transformer。本文整理了,并简单提炼了可参考的方法以及创新点,希望能给各位的论文添砖加瓦。➤ 获取:公·众·号「

2024-05-20 11:00:48 805

原创 只要两周,从零开始手搓GPU

「我花两周时间零经验从头开始构建 GPU,这可比想象的要难多了。」

2024-05-18 15:06:26 964

原创 基于卷积神经网络的图像分类算法讲解

今日分享——基于卷积神经网络的图像分类算法讲解,将会帮助大家了解在卷积神经网络结构下衍生出的被用于图像分类的经典算法

2024-05-16 17:42:37 885

原创 本地运行 Llama 3,可以中文,但不强

上个月 Meta 发布 Llama 3,大模型开源世界又热闹起来了。

2024-05-15 15:28:32 711

原创 深度学习模型加速:Pytorch模型转TensorRT模型

我将实现深度学习模型加速整体分成了两部分:1.模型转换部分。实现 Pytorch/Tensorflow Model -> TensorRT Model 的转换。2.模型推断(Inference)部分。利用 TensorRT Model 进行模型的 Inference。

2024-05-14 15:08:40 837

原创 深度学习在图像分割中的应用:UNet

图像分割是计算机视觉领域中的一项核心任务,旨在将图像划分为多个语义区域,常用于医学成像、自动驾驶等应用。近年来,深度学习特别是卷积神经网络(CNN)在图像分割任务中取得了显著的成就。UNet,作为一种有效的深度学习模型,因其在医学图像分割中的优异表现而广为人知。本节将详细介绍UNet的结构及其在图像分割中的应用。

2024-05-10 17:15:44 250

原创 基于YOLO的3D目标检测:YOLO-6D

在2D的目标检测中,实际上也是需要预测坐标点xy的。那么,我们能不能把目标检测框架拿来用呢? 很显然是可以的。所以这篇文章就提出基于yolo的6D姿态估计框架。

2024-04-27 16:13:49 1337

原创 基于Mask RCNN的6D姿态估计:deep 6d

deep 6d 这篇文章提供了另外一种思路,直接回归 6d pose,非常简单暴力。下面详细介绍这种方法。

2024-04-23 17:06:19 1084

原创 【论文笔记】YOLO-World: Real-Time Open-Vocabulary Object Detection

YOLO-World可以在提示中理解上下文以提供检测,不需要在特定类别上训练模型,因为该模型已使用图像文本对(image-text pairs)和基础图像( grounded images)进行了训练,模型学会了如何接受任意提示。

2024-04-19 16:38:19 604

原创 大模型的有趣应用

用大模型来玩Minecraft由 LLM 驱动的体现终身学习代理,它不断探索世界,获得各种技能,并在没有人为干预的情况下做出新的发现这个类似AutoGPT1)最大化探索的自动课程(Automatic Curriculum)2)不断增长的可执行代码技能库,用于存储和检索复杂行为,3)新的迭代提示机制,其中包含环境反馈,执行错误和自我验证(environment feedback, execution errors, and self-verification)以改进程序。

2024-04-16 16:53:38 796

原创 [线性RNN系列] Mamba: S4史诗级升级

iclr24终于可以在openreview上看预印本了!这篇(可能是颠覆之作)文风一眼c re组出品;效果实在太惊艳了,实验相当完善,忍不住写一篇解读分享分享

2024-04-12 16:39:13 567

原创 【图像分割】mask2former:通用的图像分割模型详解

最近看到几个项目都用mask2former做图像分割,虽然是1年前的论文,但是其attention的设计还是很有借鉴意义,同时,mask2former参考了detr的query设计,实现了语义和实例分割任务的统一。

2024-04-08 16:01:19 900

原创 点云深度学习的3D场景理解

近期刚刚开始调研3D场景理解,下文是对point,point net++,frustum point 的一些整理和总结,内容包括如何将点云进行深度学习,如何设计新型的网络架构,如何将架构应用的3D场景理解。

2024-03-31 16:18:18 769

原创 CVPR2024| 实时目标检测的变革:RT-DETR的突破性性能

实时目标检测领域一直由基于CNN的架构主导,YOLO检测器领先。然而,端到端的基于变换器的检测器(DETRs)的引入彻底改变了这一领域,尽管它们的计算成本很高。在本文中,作者介绍了实时检测变换器(RT-DETR),这是一个突破性的模型,不仅在速度和精度方面实现了最先进的(SOTA)性能,而且消除了传统实时检测器中的非最大抑制(NMS)等后处理步骤的需要,这些步骤一直是传统实时检测器中的瓶颈。

2024-03-28 16:58:29 1954

原创 像教女朋友一样的Deformable DETR论文精度+代码详解

关于Deformable DETR的通俗讲解。

2024-03-25 16:28:39 1000

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除