自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(139)
  • 收藏
  • 关注

原创 Sora后时代文生视频的探索

按常理,这里应该长篇大论地介绍一下Sora发布对各行业各方面产生的影响。不过,这类文章已经很多了,我们今天主要聊聊那些已经成熟的解决方案、那些已经可以“信手拈来”的成果,并以此为基础,看看Sora发布后的时代我们能做些什么。[2] 小诺AI(支持文生视频和图生视频):微信搜索小程序-小诺AI。

2024-03-20 14:50:09 941

原创 简单尝试:ChatGLM-6B + Stable diffusion管道连接

(高质量,高分辨率,杰作:1.2),(真实感, photo-realistic:1.37),(超详细,女孩 开心,时尚元素,细节丰富,) ( collared shirt:1.1), (卷发:1.2), (运动装:1.3), (唱:1.1), (跳舞:1.2), (高对比度,色彩丰富), ((杰作))2. BLIP2所代表的一类多模态模型走的路线是"扩展赋能LLM模型",思路简单清晰,收益明显。4. 这里只验证了基本管道连接的效果,还有很多可玩的东西,感兴趣留意之后更新。输入ChatGLM增强后结果。

2023-06-03 18:51:20 1722

原创 调研:huggingface-diffusers

使用diffusers一个很重要的、需要特别注意的点是区分推理和训练管道之间的关系。

2023-05-28 11:49:03 1768

原创 视觉目标检测大模型套件detrex-调研

视觉目标检测detrex套件调研

2022-10-15 16:37:53 1992 1

原创 论文阅读-ViTDet:Exploring Plain Vision Transformer Backbones for Object Detection

ViTDet论文梳理

2022-09-03 16:43:36 2452 3

原创 BEiT-3论文阅读笔记

BEiT-3论文阅读笔记

2022-09-01 16:49:07 3235 1

原创 盛唐硬币的另一面:山水田园诗

如果想要描述盛唐,那这两面缺一不可。正是因为同时具有这两面,盛唐才是盛唐。写山水田园诗,那是只有盛唐才能给他们的底气,山水田园诗中的山水田园越美,越宁静,说明盛唐越值得人向往。........................

2022-08-27 22:56:55 321

原创 视觉大模型调研(Survey of Visual Foundation Model)

视觉大模型调研

2022-08-21 16:30:07 9342

原创 论初唐诗人的历史地位-上官仪、王勃、杨炯、陈子昂、杜审言

再聊几位

2022-08-16 08:17:43 569

原创 戴建业老师对李白和杜甫的讨论

关于李白、关于杜甫

2022-08-13 22:25:33 359

转载 使用稀疏 4D 卷积对 3D LiDAR 数据中的运动对象进行后退分割

对于激光SLAM来说,如何在动态场景中的姿态估计一直是个难以解决的问题。现在基于激光雷达稀疏点云的物体分割算法已经有很多研究。但去除掉某一类的物体并不是解决激光SLAM在动态物体中的最优选择,停着的车、静止的墙这些才是激光SLAM定位当中真正需要观察的点云信息。本篇工作中,作者对采集到的序列点云帧构建出”后退序列滑动点云窗口“,用提出的新型的4D稀疏卷积算法,通过对采集到到的序列点云帧进行推理,预测出场景中真正移动的物体(如骑行的人)。除此之外,作者采用了贝叶斯滤波的方式,进一步提升了滤波的鲁棒性。....

2022-08-02 19:51:23 377

原创 七月阅读:《刘慈欣科幻短篇小说集Ⅰ》笔记

读书笔记

2022-07-26 14:23:39 780

原创 论文速读:Homography Loss for Monocular 3D Object Detection

是在Monopair的启发下完成的工作。论文提到是提出的结构可以作为一个独立的插件提升3D模型检测效果,因此有兴趣读一下。

2022-07-18 18:29:02 673

原创 Image Matching:SuperGlue论文阅读笔记

写在前面SLAM这个领域有着及其详细的子领域划分,理论上是任何一个小部分都可以使用深度特征学习代替的,差别是谁代替的更加优雅摘要SuperGlue,一种通过联合寻找对应点和拒绝不可匹配点来匹配两组局部特征的神经网络。分配是通过解决一个可微的最优运输问题来估计的,其成本由一个图神经网络预测。引入了一种基于注意力的灵活上下文聚合机制,使SuperGlue能够联合推理底层 3D 场景和特征分配。与传统的手工设计启发式方法相比,SuperGlue通过图像对的端到端训练来学习 3D 世界的几何变换和规律性

2022-05-21 21:17:54 1854

原创 Image Matching:SuperPoint论文阅读笔记

SuperPoint论文阅读笔记

2022-05-21 17:26:16 1045 1

原创 基于可学习特征的图像匹配综述(Image Matching Based on Learnable Features: A Survey)

图像匹配综述中基于深度特征的部分

2022-05-16 11:05:56 1656

原创 SIDE论文阅读笔记

直观感受是相当于Stereo R-CNN和IDA-3D的结合体相较于IDA-3D,将深度估计部分串行在ROI Align之后而不是与其并行,个人认为这是比较合理的,因为这样一来Cost Volume可以与其他分支同时充分利用双目图像隐含的视差信息。此外,本文对于Cost Volume的应用也更加的简洁,即利用注意力机制处理,最后直接回归深度信息。相较于Stereo R-CNN,保持了其大部分的结构。除加入Cost Volume外保持了基本的回归分支,尤其是关键点回归分支,也就是说仍然是利用方程非线性

2022-05-08 11:15:07 231

原创 DL模型开发学习笔记

争取成为一个好的模型开发者

2022-04-30 16:33:04 455

原创 随记:图优化相关

读MonoPair: Monocular 3D Object Detection Using Pairwise Spatial Relationships论文的时候,发现其在网络框架中加入了一个Pairwise Spatial Constraint。在使用Partwise Spatial Constraint的时候引入图优化的过程。于是详细地了解了一下图优化的求解过程。对图优化的基础部分的了解,是仔细阅读了高博士的博客:深入理解图优化与g2o:图优化篇 - 半闲居士 - 博客园以及g2o的论文:htt

2022-04-11 22:05:20 262

原创 综述-自动驾驶中基于图像的3D目标检测

综述:自动驾驶中基于图像的3D目标检测

2022-04-07 14:38:56 3720

原创 春招刷题(2)

0329of10.斐波那契数列一道很基本的动态规划题目,但确实很能展现出应注意的点比如直接使用递归本题会超出时间的限制class Solution: def fib(self, n: int) -> int: if n < 2: return n else: # dp= [0] * (n+1) dp = [i for i in range(n+1)]

2022-03-29 15:53:56 150

原创 春招刷题(1)

刷题笔记

2022-03-17 11:28:58 579

原创 立体视觉跟踪(一):Stereo Vision-based Semantic 3D Object and Ego-motion Tracking for Autonomous Driving

笔记

2022-02-28 14:09:53 3495

原创 《labuladong的算法小超》A和《代码随想录》B阅读笔记(4)

读书笔记

2022-02-08 13:30:02 562

原创 《labuladong的算法小超》A和《代码随想录》B阅读笔记(3)

读书笔记

2022-02-01 16:45:35 1102

原创 《labuladong的算法小超》A和《代码随想录》B阅读笔记(2)

《labuladong的算法小超》和《代码随想录》两本书的读书笔记

2022-01-23 14:29:54 608

原创 《labuladong的算法小超》A和《代码随想录》B阅读笔记(1)

《labuladong的算法小超》和《代码随想录》两本书的读书笔记

2022-01-14 22:23:10 725

原创 收集一些觉得有价值的关于自动驾驶的文章

收集到的一些关于自动驾驶的好文章

2022-01-10 20:38:54 242

原创 以几篇自动驾驶感知论文为例,试着锻炼寻找“领域知识”的能力

一个新领域研究的兴起有时要经历以下几个阶段,首先是得到该领域的一个普遍性的问题,然后将另一个已成熟的领域的一些成熟的方法和技术直接迁移到这个新领域试着解决这个普遍性的问题,接着就会发现两个领域之间的差异性使得直接迁移的方法失效,这时人们会思考这个新领域所特有的一些“本质属性”,通常该本质属性就是产生该领域普遍性问题的根本原因,同时也是使得从其他领域被直接迁移的方法失效的根本原因。在得到该本质属性后,针对其提出的针对性的且极具领域特色的方法才会被认定为解决该领域普遍性问题的基础参照(baseline)。

2022-01-08 22:54:18 2594

原创 SiamMOT:Siamese Multi-Object Tracking论文详读

SiamMOT:Siamese Multi-Object Tracking论文详读

2022-01-03 22:29:50 2170 1

原创 随记(9):CVPR2021关于Tracking的论文速读(3)-终

赶在放假前读完了Rotation Equivariant Siamese Networks for Tracking 1.认为CNN本质是平移等变的,并不是为了处理旋转问题而设计的。所以本文致力于解决视觉目标跟踪中的“旋转”问题。 2.提出旋转等变暹罗网络(细节是包含可控滤波器的组等变卷积层) 3.根据overview展示,是将不同旋转角度的样本分别输入分支的卷积网络,生成的特征图在后阶段融合并进行Group Max Pooling的过程Seeing Behind Objec...

2021-12-31 22:02:39 2086 5

原创 随记(8):CVPR2021关于Tracking的论文速读(2)-11篇

Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking 1.提出了一种新的在线学习姿态动力学的方法,该方法独立于当前帧的姿态检测,因此可以结合当前帧的检测结果做出更优化的姿态估计 2.通过显式地考虑时空和视觉信息的图形神经网络(GNN)来推导这种动力学预测。模型将历史姿势轨迹作为输入,并直接预测每个轨迹在下一帧中的相应姿势。然后,预测的姿势将与检测到的姿势(如果有的话)在同一帧中聚合...

2021-12-30 23:18:08 1829 1

原创 RetinaTrack方法论解析

关于RetinaNet的细节:retinanet - 纯洁的小兄弟 - 博客园灵魂三问解决了什么问题:单阶段目标检测器与两阶段目标检测器相比,速度上有一定的优势,但运行速度一直被诟病,如何通过一种方法解决这个问题,提出一种运行速度和准确率都较为不错的方法。产生该问题的原因:一般地,我们认为产生上述问题的原因在于单阶段检测器中样本的失衡,负样本比例远远大于正样本,占据样本中多数,影响网络的优化。怎么解决的:使用Focal loss细节...

2021-12-24 22:30:39 1098 1

原创 论文A Strong Baseline for Vehicle Re-Identification速读

写在前面:之前就说过会对重识别这部分着重理解一下,周六偷得浮生半日闲,读一下这篇论文。一、摘要部分解析Vehicle Re-Identification (Re-ID) aims to identify the same vehicle across different cameras, hence plays an important role in modern traffic management systems. The technical challenges require the a

2021-12-18 16:24:12 1165

原创 随记(6):CVPR2021关于Tracking的论文速读(1)-12篇

写在前面:结构都是论文做了什么、怎样做的、以及为什么要这样做正文Alpha-Refine 1.做了一个即插即用的模块,可直接添加到现有的跟踪器上,精细box 2.论文认为对于一个跟踪器box的精细化很重要,但现有方法做不到这点 3.提出精细化的关键是尽可能多地提取和维护详细的空间信息。所以采用逐像素相关、角点预测头和辅助掩码作为核心部件设计了一个模块。CapsuleRRT 1.用胶囊网络做回归跟踪 2.提出胶囊网络更易建模跟踪目标各部分之间的关系,就是说遮...

2021-12-15 17:05:11 2866

原创 随记(7):自动驾驶解决方案-已更新Tesla,Waymo

一、Autopilot解决方案八个摄像头首先是基于单个图像使用Regnets作为backbone使用了BiFPNs特征金字塔使用了yolo作为head以多任务网络形式布置,但是主干只有一个,在尾部加入多个解码器以完成不同任务但是当存在多个摄像头的时候多个摄像头的时候要记住很重要的一点,是在向量空间去训练和标注的。值得说一句,特斯拉并不是舍弃了Lidar,Lidar被特斯拉用来矫正数据。此外也有一个pseudo lidar部分,日后再说。你需要在每个摄像头中都完成检

2021-12-14 16:35:28 526

原创 尝试搜集了一下自动驾驶任务中有关“车道线检测”的工作-整理

尝试写一个整理11.15-12.02:尝试搜集车道线检测部分论文12.01-12.06:搜集半监督方向论文12.06-12.11 :搜集跟踪方向论文并阅读总结12.12-12.12 :开始着手文字编辑:摘要和检测部分abstract自动驾驶任务是一个极其复杂的多任务协作工程,包括但不限于视觉感知任务、激光雷达感知任务、感知融合任务、机械整装任务、智能控制任务、路径规划任务等多个模块。一般地,普遍认为智能驾驶技术在近几年有了一个比较大的突破是因为智能感知任务部分的技术日趋成熟。车道线检测..

2021-12-11 22:22:26 3306

原创 随记(5):一个完整的模型部署过程

找到一个不错的模型部署的帖子:

2021-12-11 16:25:04 501

原创 Object Track(十二):经典论文TrackFormer速读

一般base Transformer的工作所使用的的都是Query-Key机制,区别在于在哪部分启动Query-Key或者何时启动Query-Key这篇TrackFormer与昨天的TransTrack对比着看,会很有意思架构图图1:TrackFormer通过与Transformer的注意力执行联合目标检测和跟踪。Object和自回归轨迹查询关于响应包括轨迹初始化、标识和时空轨迹遮挡。图2:TrackForm将多目标跟踪重新定义为set prediction问题,执行joint d.

2021-12-11 11:21:35 2464

原创 Object Track(十一):经典论文TransTrack速读

overviewTransTrack基于Query-Key目前最火热的Transformer架构构建。最中间的key来自骨干网络对当前帧图像提取的特征图,而query按照两个分支的需求分别来自上一帧的目标特征query集和一个可学习的目标query集。这两个分支都很有意思,我们先看下面这个检测分支,这里这个learned object query思路来自于DETR,是一种可学习的表示,它能逐渐学会从key中查询到目标的位置从而完成检测,想知道得更明白得可以去看看DETR论文。可以很明显地看明白,这个

2021-12-10 17:15:23 1307

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除