小白 AI 日记-CSDN博客

原创使用昇腾原生支持的三方库，全部利用外部公开资源，快速体验最近很火的o1推理

当面对用户的请求时，你首先要进行漫长而深入的思考过程，以探索问题的可能解决方案。完成你的想法后，你在回复中提供对解决方案过程的详细说明。她把4个苹果给了她的朋友Mark，然后又买了1个苹果，最后把所有的苹果平均分给了她自己和2个兄弟姐妹。但我们需要运行的Skywork-o1-Open-Llama-3.1-8B入参校验需要的Transformers版本至少要求4.43.2以上，所以需要更新一下。启智社区 --> 个人中心 --> 云脑任务 --> 新建云脑任务 --> 调试任务 --> 昇腾NPU。

2024-12-01 12:17:13 838

原创 Sora后时代文生视频的探索

按常理，这里应该长篇大论地介绍一下Sora发布对各行业各方面产生的影响。不过，这类文章已经很多了，我们今天主要聊聊那些已经成熟的解决方案、那些已经可以“信手拈来”的成果，并以此为基础，看看Sora发布后的时代我们能做些什么。[2] 小诺AI（支持文生视频和图生视频）：微信搜索小程序-小诺AI。

2024-03-20 14:50:09 1279

原创简单尝试：ChatGLM-6B + Stable diffusion管道连接

(高质量，高分辨率，杰作：1.2),(真实感， photo-realistic:1.37),(超详细，女孩开心，时尚元素，细节丰富，) ( collared shirt:1.1), (卷发：1.2), (运动装：1.3), (唱：1.1), (跳舞：1.2), (高对比度，色彩丰富), ((杰作))2. BLIP2所代表的一类多模态模型走的路线是"扩展赋能LLM模型"，思路简单清晰，收益明显。4. 这里只验证了基本管道连接的效果，还有很多可玩的东西，感兴趣留意之后更新。输入ChatGLM增强后结果。

2023-06-03 18:51:20 2166 1

原创调研：huggingface-diffusers

使用diffusers一个很重要的、需要特别注意的点是区分推理和训练管道之间的关系。

2023-05-28 11:49:03 2435

原创视觉目标检测大模型套件detrex-调研

视觉目标检测detrex套件调研

2022-10-15 16:37:53 2404

原创论文阅读-ViTDet：Exploring Plain Vision Transformer Backbones for Object Detection

ViTDet论文梳理

2022-09-03 16:43:36 3818 3

原创 BEiT-3论文阅读笔记

BEiT-3论文阅读笔记

2022-09-01 16:49:07 3920 1

原创盛唐硬币的另一面：山水田园诗

如果想要描述盛唐，那这两面缺一不可。正是因为同时具有这两面，盛唐才是盛唐。写山水田园诗，那是只有盛唐才能给他们的底气，山水田园诗中的山水田园越美，越宁静，说明盛唐越值得人向往。........................

2022-08-27 22:56:55 800

原创视觉大模型调研(Survey of Visual Foundation Model)

视觉大模型调研

2022-08-21 16:30:07 17327 1

原创论初唐诗人的历史地位-上官仪、王勃、杨炯、陈子昂、杜审言

再聊几位

2022-08-16 08:17:43 1330

原创戴建业老师对李白和杜甫的讨论

关于李白、关于杜甫

2022-08-13 22:25:33 610

转载使用稀疏 4D 卷积对 3D LiDAR 数据中的运动对象进行后退分割

对于激光SLAM来说，如何在动态场景中的姿态估计一直是个难以解决的问题。现在基于激光雷达稀疏点云的物体分割算法已经有很多研究。但去除掉某一类的物体并不是解决激光SLAM在动态物体中的最优选择，停着的车、静止的墙这些才是激光SLAM定位当中真正需要观察的点云信息。本篇工作中，作者对采集到的序列点云帧构建出”后退序列滑动点云窗口“，用提出的新型的4D稀疏卷积算法，通过对采集到到的序列点云帧进行推理，预测出场景中真正移动的物体（如骑行的人）。除此之外，作者采用了贝叶斯滤波的方式，进一步提升了滤波的鲁棒性。....

2022-08-02 19:51:23 589

原创七月阅读：《刘慈欣科幻短篇小说集Ⅰ》笔记

读书笔记

2022-07-26 14:23:39 1890

原创论文速读：Homography Loss for Monocular 3D Object Detection

是在Monopair的启发下完成的工作。论文提到是提出的结构可以作为一个独立的插件提升3D模型检测效果，因此有兴趣读一下。

2022-07-18 18:29:02 933

原创 Image Matching：SuperGlue论文阅读笔记

写在前面SLAM这个领域有着及其详细的子领域划分，理论上是任何一个小部分都可以使用深度特征学习代替的，差别是谁代替的更加优雅摘要SuperGlue，一种通过联合寻找对应点和拒绝不可匹配点来匹配两组局部特征的神经网络。分配是通过解决一个可微的最优运输问题来估计的，其成本由一个图神经网络预测。引入了一种基于注意力的灵活上下文聚合机制，使SuperGlue能够联合推理底层 3D 场景和特征分配。与传统的手工设计启发式方法相比，SuperGlue通过图像对的端到端训练来学习 3D 世界的几何变换和规律性

2022-05-21 21:17:54 2593

原创 Image Matching：SuperPoint论文阅读笔记

SuperPoint论文阅读笔记

2022-05-21 17:26:16 1457 1

原创基于可学习特征的图像匹配综述(Image Matching Based on Learnable Features: A Survey)

图像匹配综述中基于深度特征的部分

2022-05-16 11:05:56 2298

原创 SIDE论文阅读笔记

直观感受是相当于Stereo R-CNN和IDA-3D的结合体相较于IDA-3D，将深度估计部分串行在ROI Align之后而不是与其并行，个人认为这是比较合理的，因为这样一来Cost Volume可以与其他分支同时充分利用双目图像隐含的视差信息。此外，本文对于Cost Volume的应用也更加的简洁，即利用注意力机制处理，最后直接回归深度信息。相较于Stereo R-CNN，保持了其大部分的结构。除加入Cost Volume外保持了基本的回归分支，尤其是关键点回归分支，也就是说仍然是利用方程非线性

2022-05-08 11:15:07 341

原创 DL模型开发学习笔记

争取成为一个好的模型开发者

2022-04-30 16:33:04 607

原创随记：图优化相关

读MonoPair: Monocular 3D Object Detection Using Pairwise Spatial Relationships论文的时候，发现其在网络框架中加入了一个Pairwise Spatial Constraint。在使用Partwise Spatial Constraint的时候引入图优化的过程。于是详细地了解了一下图优化的求解过程。对图优化的基础部分的了解，是仔细阅读了高博士的博客：深入理解图优化与g2o：图优化篇 - 半闲居士 - 博客园以及g2o的论文：htt

2022-04-11 22:05:20 395

原创综述-自动驾驶中基于图像的3D目标检测

综述：自动驾驶中基于图像的3D目标检测

2022-04-07 14:38:56 4356

原创春招刷题（2）

0329of10.斐波那契数列一道很基本的动态规划题目，但确实很能展现出应注意的点比如直接使用递归本题会超出时间的限制class Solution: def fib(self, n: int) -> int: if n < 2: return n else: # dp= [0] * (n+1) dp = [i for i in range(n+1)]

2022-03-29 15:53:56 265

原创春招刷题（1）

刷题笔记

2022-03-17 11:28:58 685

原创立体视觉跟踪(一)：Stereo Vision-based Semantic 3D Object and Ego-motion Tracking for Autonomous Driving

笔记

2022-02-28 14:09:53 4295

原创《labuladong的算法小超》A和《代码随想录》B阅读笔记(4)

读书笔记

2022-02-08 13:30:02 886

原创《labuladong的算法小超》A和《代码随想录》B阅读笔记(3)

读书笔记

2022-02-01 16:45:35 1402

原创《labuladong的算法小超》A和《代码随想录》B阅读笔记(2)

《labuladong的算法小超》和《代码随想录》两本书的读书笔记

2022-01-23 14:29:54 916

原创《labuladong的算法小超》A和《代码随想录》B阅读笔记(1)

《labuladong的算法小超》和《代码随想录》两本书的读书笔记

2022-01-14 22:23:10 1138

原创收集一些觉得有价值的关于自动驾驶的文章

收集到的一些关于自动驾驶的好文章

2022-01-10 20:38:54 383

原创以几篇自动驾驶感知论文为例，试着锻炼寻找“领域知识”的能力

一个新领域研究的兴起有时要经历以下几个阶段，首先是得到该领域的一个普遍性的问题，然后将另一个已成熟的领域的一些成熟的方法和技术直接迁移到这个新领域试着解决这个普遍性的问题，接着就会发现两个领域之间的差异性使得直接迁移的方法失效，这时人们会思考这个新领域所特有的一些“本质属性”，通常该本质属性就是产生该领域普遍性问题的根本原因，同时也是使得从其他领域被直接迁移的方法失效的根本原因。在得到该本质属性后，针对其提出的针对性的且极具领域特色的方法才会被认定为解决该领域普遍性问题的基础参照(baseline)。

2022-01-08 22:54:18 2801

原创 SiamMOT：Siamese Multi-Object Tracking论文详读

SiamMOT：Siamese Multi-Object Tracking论文详读

2022-01-03 22:29:50 2470 1

原创随记（9）：CVPR2021关于Tracking的论文速读(3)-终

赶在放假前读完了Rotation Equivariant Siamese Networks for Tracking 1.认为CNN本质是平移等变的，并不是为了处理旋转问题而设计的。所以本文致力于解决视觉目标跟踪中的“旋转”问题。 2.提出旋转等变暹罗网络(细节是包含可控滤波器的组等变卷积层) 3.根据overview展示，是将不同旋转角度的样本分别输入分支的卷积网络，生成的特征图在后阶段融合并进行Group Max Pooling的过程Seeing Behind Objec...

2021-12-31 22:02:39 2336 5

原创随记（8）：CVPR2021关于Tracking的论文速读(2)-11篇

Learning Dynamics via Graph Neural Networks for Human Pose Estimation and Tracking 1.提出了一种新的在线学习姿态动力学的方法，该方法独立于当前帧的姿态检测，因此可以结合当前帧的检测结果做出更优化的姿态估计 2.通过显式地考虑时空和视觉信息的图形神经网络(GNN)来推导这种动力学预测。模型将历史姿势轨迹作为输入，并直接预测每个轨迹在下一帧中的相应姿势。然后，预测的姿势将与检测到的姿势(如果有的话)在同一帧中聚合...

2021-12-30 23:18:08 2029

原创 RetinaTrack方法论解析

关于RetinaNet的细节：retinanet - 纯洁的小兄弟 - 博客园灵魂三问解决了什么问题：单阶段目标检测器与两阶段目标检测器相比，速度上有一定的优势，但运行速度一直被诟病，如何通过一种方法解决这个问题，提出一种运行速度和准确率都较为不错的方法。产生该问题的原因：一般地，我们认为产生上述问题的原因在于单阶段检测器中样本的失衡，负样本比例远远大于正样本，占据样本中多数，影响网络的优化。怎么解决的：使用Focal loss细节...

2021-12-24 22:30:39 1249 1

原创论文A Strong Baseline for Vehicle Re-Identification速读

写在前面：之前就说过会对重识别这部分着重理解一下，周六偷得浮生半日闲，读一下这篇论文。一、摘要部分解析Vehicle Re-Identification (Re-ID) aims to identify the same vehicle across different cameras, hence plays an important role in modern traffic management systems. The technical challenges require the a

2021-12-18 16:24:12 1456

空空如也

空空如也