- 博客(151)
- 收藏
- 关注
原创 读代码ModelBasedFootstepPlanning-IROS2024
env_cfgasset: angular_damping: 0.1 # 表示物体的角阻尼,值为0.1,表示角速度减慢较慢 apply_humanoid_jacobian: true # 使用类人机器人雅可比矩阵进行运动学求解 collapse_fixed_joints: false # 不合并固定关节 default_dof_drive_mode: 3 # 自由度驱动模式为3 disable_actuations: false # 驱动未被禁用 disable_gravity:
2024-10-18 17:11:53 814
原创 读宇树示例
策略损失(Surrogate Loss)用于确保策略更新稳定,避免过度调整。价值函数损失(Value Function Loss)用于保证策略对未来回报的准确估计。熵损失(Entropy Loss)用于保持策略的探索性,避免陷入局部最优解。最终的loss是这三个损失的组合,代表了在每次更新中我们希望优化的目标。是一个用于导出基于 LSTM 的强化学习策略模型的工具类。它将包含 LSTM 的策略模型及其隐状态管理(和cell_state。
2024-09-04 11:22:03 883
原创 读《Visual Whole-Body for Loco-Manipulation》②论文
当训练我们的高级策略时,我们随机化了机器人与地形之间的摩擦、机器人的质量和机器人的质心。为了实现简单和稳定的训练,我们选择训练一个基于特权状态的策略,该策略可以访问对象的形状信息(如图3的橙色部分所示),并提取一个视觉运动学生(如图3的绿色部分所示)。这确保了采样的轨迹总是在一个平滑的球体上,并防止采样的目标受到四足动物机器人的高度的影响。为了在现实世界中部署我们的政策,我们必须使用易于访问的现实世界中的观察数据,比如图像。6维的机械手姿态增量,2维的四足线速度和偏航角速度的指令,1维的机械手状态。
2024-09-02 09:19:17 629
原创 读《Visual Whole-Body for Loco-Manipulation》①low
函数的主要目的是准备奖励函数列表。这些奖励函数将在仿真过程中被调用,以计算总的奖励值。函数会遍历配置文件中所有非零的奖励比例(scale),并为每一个奖励比例准备相应的函数。learn函数是类的核心,负责执行强化学习中的策略训练循环。它通过环境交互、损失计算、策略更新和记录保存等步骤,来逐步优化策略网络,使得代理能够更好地完成任务。这个函数结构严谨,逻辑清晰,涵盖了强化学习训练的方方面面。# 得到self.transition.actions(actor): Actor(输入obs 6144,744。
2024-08-29 17:02:27 1240
原创 关于transform旋转时旋转产生多余像素
现在transform的包还挺多,不过我没搜到/不会搜他们有能满足我需求的方法,所以还是摸索这个基本的torchvision版本。,好像没有edge所以最好是用cv2.BORDER_REPLICATE,这是个复制边缘像素,对于背景简单的就还可以。还是用edge还一些,可以比较平滑的延展原图的背景,其他像reflect就是单纯镜像,不行。捯饬半天干脆试试cv2咋样,这里。
2024-04-30 11:54:11 196
原创 读3dsr代码②训练
首先初始化权重他的训练数据是imagenet的rgb,然后利用Perlin 噪声来模拟深度图像dgridnp.mgriddeltadeltagrid% 1anglesgradientsanglesttgradientsdotn00n10n01n11tfadelerp_npperlin_thr函数最终返回(归一化 Perlin 噪声)->perlin_norm、perlin_thr(阈值化 Perlin 噪声)、原始的和使用的阈值threshold->p_thr。
2024-03-27 17:15:46 1109 2
原创 读3dsr代码①测试
首先是作者不公开checkpoints,需要自己训练一遍这里先不载入模型单纯过一遍流程而且因为没有说明是否需要去背景(之后再过一下论文),所以反正先用去过背景的数据debug一下这是因为有除零风险,所以加个eps。
2024-03-26 19:50:29 1084
原创 读《Complementary Pseudo Multimodal Feature for Point Cloud Anomaly Detection》
点云(PCD)异常检测逐渐成为一个很有前途的研究领域(笑了)提出了互补伪多模态特征(CPMF),该特征利用手工制作的PCD描述符在三维模态中包含局部几何信息,并利用预先训练好的二维神经网络在生成的伪二维模态中包含全局语义信息。对于全局语义提取,CPMF将原点PCD投影到一个包含多视图图像的伪二维模态中。这些图像被传送到预先训练的二维神经网络,进行信息的二维模态特征提取。将三维和二维模态特征进行聚合,获得PCD异常检测的CPMF。
2024-03-15 17:47:39 604
原创 读《Cheating Depth: Enhancing 3D Surface Anomaly Detection via Depth Simulation》
RGB骨干:某些表面异常仅在RGB中实际上仍然是看不见的,因此需要合并三维信息(确实重点在于“合并”,单纯看例子里的深度图片也看不出来异常在哪里,但是和rgb overlay之后就明显一些了)。在工业深度数据集上重新训练RGB骨干,这是为更快的密集输入处理而设计的,由于足够大的数据集的可用性有限而受到阻碍。点云骨干:一般的点云数据集并不能很好地表示工业设置的深度外观分布(那是说点云训练的模型泛化性能差,和现实工业场景不兼容?还是说他们用的点云数据失了真,无法真实的表现现实场景?,从而导致了次优表示。
2024-03-15 16:06:37 1013
原创 引用论文分析
3 当前热点3.1关注样本数无监督的VAD。无监督的VAD专注于识别专门针对特定类别的正常样本进行训练的异常现象[Cao等人,2023a]。其主要目标是对正态特征的分布进行建模,通常包括两个子步骤:特征提取和分布建模。最近的进展主要使用预先训练的神经网络,如ResNet进行特征提取。分布建模的四种主要方案包括存储库、重构、知识蒸馏和基于流程的方法。基于记忆库的方法,例如PatchCore [Roth et al.,2022],直接存储训练正常样本的特征。
2024-03-14 18:00:40 784
原创 读CDO代码
Image.ANTIALIAS 替换为 Image.LANCZOS,参考https://blog.csdn.net/fovever_/article/details/134690657这是对应可视化里面生成期刊风格的图表,但是本地缺少相应的font。
2024-03-13 19:18:41 1116 1
原创 读Shape-Guided代码③训练
g_point = input_points - sdf * grad_norm根据梯度方向和大小调整每个点的位置,这里sdf * grad_norm计算每个点沿梯度方向的位移,然后从原始位置减去这个位移得到新的位置。这里使用torch.ones_like(sdf)作为梯度的权重,因为我们对SDF本身的梯度感兴趣,而不是对它的某个函数的梯度。整体来看,get_gradient方法通过计算SDF相对于输入点的梯度,并使用这个梯度来更新点的位置,这在许多应用中是有用的,例如形状优化、网格重构等。
2024-03-11 17:40:01 209 1
原创 读《Shape-Guided: Shape-Guided Dual-Memory Learning for 3D Anomaly Detection》
专家学习无监督第一个专家:局部几何,距离建模第二个专家:2DRGB,局部颜色外观。
2024-02-27 18:52:56 756
原创 读《Collaborative Discrepancy Optimization for Reliable Image Anomaly Localization》
无监督异常定位过度泛化-》预测不可靠合成异常,协同优化。
2024-02-26 18:10:55 856
原创 和GPT讨论知识蒸馏的基本概念
在您的例子中,U-Net中的下采样部分(编码器)和上采样部分(解码器)更类似于网络内部的不同组件,而不是逆向蒸馏中的教师和学生。在传统的知识蒸馏过程中,确实是使用已经训练好的大型模型(教师模型)为未标记的数据生成软标签,然后使用这些带有软标签的数据来训练一个更小的模型(学生模型)。总之,知识蒸馏的核心在于让学生模型学习并模仿教师模型的行为,尤其是教师模型对不同类别的概率分布,从而使学生模型能够在更小、更高效的架构下达到接近教师模型的性能。训练学生模型:接下来,学生模型被训练来模仿教师模型的这些软标签。
2024-01-23 15:40:04 918
原创 菜鸟导入导出assetbundle
总之把这个神秘的txt改好后再通过UABEA import dump上去后,按照贴吧的教程是txt import给CAB,然后CAB再import给bundle,然后再compress。用UABEA open要编辑的bundle,如果太大会提示保存到memory,总之是有个CAB数据在内存里,贴吧的教程是export出来,但我实践后感觉并不需要,直接点击info。当然这里的txt还是把字符串挤在一起的,所以为了清楚要改哪里,我还是用了UABE来导出一个更结构化的txt。每次打开都要填,还挺麻烦的。
2024-01-22 10:23:59 1181 2
原创 菜鸟关于做前、后端的整理(html、js),以及疑问
涉及到后端的接口py,前端html和js这三部分就按照如下格式放到server项目主路径下,这样后端机可以作为一个前端server。
2024-01-19 16:08:10 822 1
原创 读《Mixtral of Experts》
语言模型Mixtral 8x7B。Mixtral具有与Mistral 7B相同的架构,不同之处在于每层由8个前馈块(即专家)组成。对于每一个令牌,在每一层,路由器网络都会选择两名专家来处理当前状态并组合他们的输出。尽管每个令牌只能看到两个专家,但在每个时间步长选择的专家可能不同。结果,每个令牌都可以访问47B参数,但在推理期间仅使用13B活动参数。Mixtral是用32k个令牌的上下文大小进行训练的,在所有评估的基准中,它都优于或匹配Llama 2 70B和GPT-3.5。
2024-01-11 11:49:15 930
原创 用《Object-Occluded Human Shape and Pose Estimation from a Single Color Image》代码
生成的四类图像都没有回到原图的分辨率导致很模糊,pad的黑边也没有去,之后看看优化一下?具体算法原理之后再说,大体上是基于分割剪影和预设UV图得到的蒙皮,关节点应该只是辅助。所以分割效果差的帧,生成的蒙皮也会很神秘。以及生成效果视频的代码。
2024-01-02 18:57:15 514
原创 openpose+smplx
boss不知道从哪淘换来的pose_iter_440000.caffemodel和basicModel_f_lbs_10_207_0_v1.0.0.pkl让我搞2d图像3d蒙皮,人都麻了,最后还是从头过了一下openpose和smplx。这里记录一下这个是用来得到骨架坐标的,可以理解为(x,y,置信度)不过boss那猴年马月的版本已经不适配数据格式了,现在与下游衔接的版本格式如下。
2023-12-29 21:28:08 1455 2
原创 mvtec3d
现在你可以使用 CloudCompare、MeshLab 或其他点云可视化工具来查看和分析这些数据。如果你选择使用 Python 进行可视化,可以使用 matplotlib、plotly 或类似库来创建三维散点图。成功将图像转换为点云数据。生成的点云由 640,000 个点组成,每个点有三个坐标:x, y, 和 z。遍历每个像素,使用其 x 和 y 坐标以及灰度值(作为 z 坐标)来生成点云。这些坐标中,x 和 y 是像素的位置,而 z 是基于灰度值的高度(或深度)。class_ids.json如下。
2023-12-26 16:17:17 530
原创 读SAM代码
网络中的参数pos_embed(1,64,64,1280)阈值过滤之前的masks(1,3,480,640)刚transform 1,3,768,1024。过滤后的masks[1],应该是关注前景。网络的输入 1,3,1024,1024。用的是default模型,大概2G。原图1,3,480,640。过滤后的masks[0]主要是预处理那里很慢。(可视化的后三通道)
2023-12-04 16:19:11 164
原创 读《Segment Anything in Defect Detection》
由于缺陷图像的固有特征,如高噪声水平、模式的相似性和有限的样本可用性,传统的深度学习模型往往存在过拟合和缺乏泛化能力,也出现在其他领域。因此,基于深度学习的模型通常存在严重的过拟合和有限的泛化能力,限制了它们对看不见的缺陷类型的适用性。在这项研究中,我们的重点是通过图像分割技术解决问题 (a) 和 (b),同时还估计问题 ©的更准确的缺陷分割区域。• 开发DefectSAM,这是第一个用于缺陷检测的大规模基础模型,超越了最先进的 (SOTA)分割基础模型,即使在复杂场景下也表现出卓越的性能。
2023-11-20 16:33:03 360 1
原创 读《Towards Generic Anomaly Detection and Understanding: Large-scale Visual-linguistic Model (GPT-4V)》
许多现有的方法主要依赖于描述正常数据分布的方法。他们经常忽略高级感知,主要将其视为低级任务。然而,异常检测的实际应用往往需要对数据进行更全面的、高级的理解。(说这些废话有啥用)
2023-11-20 16:01:16 135
原创 读《AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models》
MiniGPT-4 和 LlaVA 等大型视觉语言模型 (LVLM) 已经证明了理解图像的能力,并在各种视觉任务中取得了卓越的性能。尽管由于训练数据集广泛,它们在识别常见对象方面具有很强的能力,但它们,并且对对象内的,这阻碍了它们在工业异常检测 (IAD) 任务中的有效性。另一方面,大多数现有的IAD方法只提供异常分数,需要,这限制了它们的实际实现。
2023-11-20 15:17:25 1532 2
原创 读《GaitPart: Temporal Part-based Model for Gait Recognition》
人体的不同部分在行走过程中具有明显不同的视觉外观和运动模式。在最新的文献中,使用部分特征进行人体描述已被证实有利于个体识别。综上所述,我们假设人体的每个部分都需要自己的时空表达。然后,我们提出了一种新的基于部分的模型GaitPart,并获得了提高性能的两个方面效应:一方面,提出了一种新的卷积应用Focal Convolution层来增强部分级空间特征的细粒度学习。另一方面,提出了微运动捕获模块(MCM),GaitPart 中有几个并行的 MCM,分别对应于人体的预定义部分。
2023-10-27 18:34:28 225
原创 读u2net代码
transform后是torch.Size([1, 3, 320, 320])-》x。我这里经过上游的检测跟踪得到roi图像是128。
2023-10-26 10:54:27 137
原创 读《Gaitset: Regarding gait as a set for cross-view gait recognition》
现有的步态识别方法要么利用步态模板,难以保存时间信息,要么利用保持不必要的顺序约束的步态序列,从而失去步态识别的灵活性。在本文中,我们提出了一种新的视角,利用步态作为深度集,这意味着一组步态帧由全局局部融合深度网络集成,其灵感来自于我们的左右半球处理信息来学习可用于识别的信息。基于这个深度集视角,我们的方法不受帧排列的影响,可以自然地整合在不同场景下获得的不同视频的帧,如不同的视角、不同的衣服或不同的物品承载条件。
2023-10-19 18:18:45 222
原创 读《Gaitgl:Learning discriminative global-local feature representations for gait recognition》
当时的模型要么全局要么局部,于是本文首次融合。
2023-10-18 18:14:16 265
原创 Win10下获取海康威视网络串流
我是一开始还有充电器的时候做了账号初始化,但是现在找不着充电器了,所以用的采集设备,通过网线供电,这就有点不太稳定能够通过重置助手获取摄像头IP地址。如果有摄像头专供充电器最好,那样可以用交换机,而且可以用海康威视官方的(大概)400密码重置助手获取摄像头IP地址,并做账号初始化等工作。如此配置好ip,并且可以ping通摄像头的ip,那大概率可以保证可以进入ip域名的网址,确保视频编码是h264。关于ip的获取方式,可以在海康威视的采集设备中找到配置-》网络配置,可以看到采集设备的ip。
2023-09-23 01:15:04 819
原创 关于slowfast自建数据集的训练日志(失败,弃坑)
2.如果发生行为的那一秒并没能检测到对象(自己用的检测跟踪算法不是官方那个detectron2,而是自己的yolo+deepsort)那就只好删掉这个视频对应的东西。3.对视频每秒做行为标注时留神每秒一张截图是否有包含动作发生的过程,比如动作发生太短,那也就只好pass了吧。提到行为的标注是按照每秒来的,而不是每帧来的,在ava_help里也是有设置一个秒的范围。之前有试过一个小型数据集按照每帧来标注,效果很混乱,所以这次记录整理一下。1.去除路人的检测标注,只留下自己要识别行为的对象的检测结果。
2023-08-15 00:54:23 416
原创 读《MetaGait: Learning to Learn an Omni Sample Adaptive Representation for Gait Recognition》
指出这种动态网络属于一种元学习形式(不过之前接触过的元学习maml是说在众多类似的任务中找出一个“公约数”,在随后的具体任务中就可以轻松地微调到任务的最优解,所谓学会学习)
2023-08-01 16:50:36 175 1
原创 关于瓶颈结构
瓶颈设计的思想是引入一个瓶颈层,它由一系列不同大小的滤波器组成,通常是1x1、3x3和1x1的卷积层序列。这个序列首先用1x1的卷积核进行降维,然后使用3x3的卷积核进行特征提取,最后再用1x1的卷积核进行升维。在深度学习中,“bottleneck”(瓶颈)指的是一种网络模块或设计,主要用于减少计算量和参数数量,从而提高模型的性能和效率。瓶颈设计的名称"bottleneck"(瓶颈)来自于它的结构,因为在特征图经过1x1的卷积核降维后,其通道数被显著地减小,形象地类似于瓶颈的形状。——来自ChatGPT。
2023-08-01 16:06:18 1514
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人