自我介绍&项目介绍

自我介绍:

  我叫LSH,家乡是SD省JN市,本科就读于DB大学机械工程专业,本科期间多次参加国家级和校级比赛,其中本科期间参加了大创项目,题目是倾转旋翼无人机,主要完成的是无人机的结构设计相关的工作,大学四年学习成绩也是一直保持在前百分之五,大四也顺利获得了省级优秀毕业生的荣誉,并且顺利推免保送至西安交通大学攻读硕士研究生。
  现在我在XAJT大学读机械工程专业研二年级,研究生的主要研究方向是机器人抓取技术,主要涉及到的技术包括三维点云分割、姿态估计、路径规划,研究生阶段也参加过两次企业实习,其中在西安知象光电的实习内容也是机器人抓取相关的项目,在海康威视研究院的实习时间比较短,担任的是算法工程师,主要负责算法模型的测试与优化相关的工作。以上就是简短的一个自我介绍。

  My name is Li Shenghao. And my hometown is Jining City, Shandong Province. I studied at Northeast University as an undergraduate. During my undergraduate period, I participated in national and university level competitions for many times and got good grades. During my undergraduate period, my academic record has been in the top five percent. In my senior year, I also successfully won the title of excellent graduate in Liaoning Province, and was successfully promoted to Xi’an Jiaotong University to study for a master’s degree.
  The main research topic of my postgraduate stage is robot graspping, which mainly involves three aspects: point cloud segmentation, pose estimation and path planning. I also participated in two enterprise internships in the postgraduate stage, and my research topic is also related to computer vision.

机器人抓取项目

  这个项目是我自己独立完成的,主要完成的是针对于堆叠物体的机器人抓取工作,目标物体为较为规则的矩形物体,技术路线主要包括三维点云分割、姿态估计、路径规划这三个内容。
  在三维点云分割方面,首先是自己制作了一个小样本的数据集,把待抓取物体的点云标签设置为1,其余设置为0。然后点云分割网络主要是以DGCNN为基础,对DGCNN网络进行了一些小的改动。然后在项目中,将双目相机拍摄到的点云图片输入到网络中,输出待抓取物体的点云信息,进行后续的处理。
  在姿态估计方面,使用obb矩形包围框框选出点云分割网络的输出点云,然后通过计算矩形保卫框的法向量信息,得到待抓取物体的姿态信息,然后通过对点云中点的坐标进行计算平均值,可以得到待抓取物体的中心点坐标,这样就得到了待抓取物体的6DoF位姿信息。
  在路径规划中,主要使用的是基于RRT*的路径规划算法,通过设定机械臂手爪位置作为初始点,待抓取物体位置作为终点,计算出一条最优路径,然后机械手臂和障碍物的干涉算法主要是将机械臂连杆设置成一条线段,然后判断直线与障碍物是否有干涉。

详细介绍一下你的点云分割网络:

  首先我是基于DGCNN网络来进行的点云分割任务,以实验平台的双目相机拍摄到的物体点云信息的x y z 坐标信息作为网络的输入,然后通过一个空间转换模块,对输入的点云进行一个矫正,然后通过三层边卷积神经网络,然后再通过最大池化提取出点云的一个全局特征,而后和前面的边卷积计算出的局部特征进行一个拼接,进而得到点云的一个局部特征和全局特征,然后输出各个点云的得分值,最后得出分割结果。

为什么要用DGCNN这个网络呢:

  首先深度学习技术直接应用到点云处理方向的开山之作是PointNet,之后PointNet++改善了PointNet不能提取局部特征的问题,DGCNN也是对PointNet的一个改进版本,因为当时数据集用的是自己制作的,所以就用三个网络都在自己的数据集上进行了测试,测试的结果是DGCNN的效果最好。所以就暂时用DGCNN网络来进行的点云分割。

为什么点云分割不用传统的那些方法呢:

  首先深度学习与传统方法的最大不同在于深度学习所采用的特征是从大数据中自动学习得到,而传统方法所用的特征主要是手工设计的。而手工设计主要依靠设计者的先验知识,很难利用大数据的优势。由于依赖手工调参,因此特征的设计中所允许出现的参数数量十分有限。但是深度学习可以从大数据中自动学习特征的表示,可以包含成千上万的参数。
  在特征和分类器方面,在传统方法中,特征和分类器的优化是分开的。而在神经网络的框架下,特征表示和分类器是联合优化的,可以最大程度地发挥二者联合协作的性能。

点云分割传统方法都有哪些:

  点云的分割与分类处理比二维图像的处理复杂很多,点云分割又分为区域提取、线面提取、语义分割与聚类等。同样是分割问题,点云分割涉及面太广,一般说来,点云分割是目标识别的基础。
  分割:区域声场、Ransac线面提取、NDT-RANSAC、K-Means、Normalize Cut、3D Hough Transform(线面提取)、连通分析
  分类:基于点的分类,基于分割的分类,监督分类与非监督分类。

DGCNN相比于其他的点云分割网络有什么优势呢?

  PointNet缺少了考虑局部特征
  而PointNet++根据点对的欧氏距离构建图,然后使用最远点采样选取点作为下一层的输入,这样使得每一层的图不断减小,但是图的结构没有变。
  DGCNN 的动态图,是因为在特征空间取k近邻,每层计算的特征都不相同,因此相当于每一层的图都具有不同的顶点。

你使用的DGCNN网络中的loss函数是什么样的呢?

  DGCNN中的loss函数是使用的交叉熵损失函数。
    关于交叉熵损失函数的具体介绍可以看这里:
  交叉熵损失函数常用于深度学习中的分类任务,其可以表示预测值与ground truth之间的差距。交叉熵的定义为:
在这里插入图片描述
  P代表gt的概率分布,q代表预测值的概率分布。交叉熵从相对熵(KL散度)演变而来,log代表了信息量,q越大说明可能性越大,其信息量越少;反之则信息量越大。通过不断的训练优化,逐步减小交叉熵损失函数的值来达到缩小p和q距离的目的。

你提到你用到了注意力机制,为什么要加注意力机制呢:

  注意力机制的显著优点就是关注相关的信息而忽略不相关的信息,不通过循环而直接建立输入与输出之间的依赖关系,并行化程度增强,运行速度有了很大提高。
  然后它克服了传统神经网络中的一些局限,如随着输入长度增加系统的性能下降、输入顺序不合理导致系统的计算效率低下、系统缺乏对特征的提取和强化等。但是注意力机制能够很好地建模具有可变长度的序列数据,进一步增强了其捕获远程依赖信息的能力,减少层次深度的同时有效提高精度。
  而且注意力机制模块比较简单,能够很方便的嵌入到各种网络。

空间注意力机制和通道注意力机制的区别是什么

通道注意力机制:
  通道注意力机制主要是通过网络计算出各个通道的重要性(权重),也就是哪些通道包含关键信息就多加关注,少关注一些没有重要信息的通道,从而达到提高特征表达能力的目的。
  对于每个通道赋予了不同的权重
在这里插入图片描述
空间注意力机制:
  是基于通道注意力机制的基础上,基于通道的方向,找到哪一块位置信息聚集的最多。
  对于某一个层,上面的每一个元素都被赋予了不同的权重。
在这里插入图片描述

路径规划部分具体是怎么做的呢:

  路径规划方面我是基于RRT*来做的,然后利用三阶贝塞尔曲线来对路径的平滑度进行一个优化。

RRT*原理进行一个简单的介绍:

  首先RRT* 是对RRT的一个改进,RRT是随机生成树的一种方法,它的主要思想就是快速扩张一群像树一样的路径以探索(填充)空间的一部分区域,找到可行的路径。
RRT的基本步骤是:
  1、初始化整个空间,定义起始点,终点,采样点数,点与点之间的步长等信息
  2、在空间中随机生成一个点Xrand
  3、在已知树的点的集合中找到距离这个随机点最近的点Xnear
  4、在Xnear到Xrand的直线方向上从Xnear以步长 t 截取点Xnew
  5、判读Xnear和Xnew之间有没有障碍物,若存在障碍物则舍弃掉该点
  6、将Xnew加入到树的集合中
  7、循环2-6,循环截至的条件:有一个new点在终点的设定邻域内

那么RRT* 是相对于RRT的一种改进,相对于RRT来说,RRT* 多了两个步骤:
  1、重新为Xnew选择父节点
  2、重布线随机树的过程

简单介绍一下你在海康威视做的项目

在海康威视实习期间主要做了一个多光谱行人识别这样一个项目,就是利用单阶段检测框架,利用多标签学习来学习输入状态感知特征,根据输入图像对的给定状态分配一个单独的标签。其中主要就是以RGB图和热成像图作为网络的输入,然后网络结构部分主要是用一个类似SSD的网络,由两个独立的分支组成,然后热成像图和RGB图就被送入到这两个独立的分支,然后分别经过四层卷积,他们共享剩下的一层卷积层,直到最后。然后在多融合模块中,每个模态的特征被串联起来。这样进行网络的设计。
在这里插入图片描述损失函数:用的BCE交叉熵损失函数
baseline:SSD
使用在ImageNet上预训练的VGG16进行批归一化处理(batch normalization
数据集:KAIST数据集:多光谱行人数据集,由城市环境中的95328个完全重叠的RGB-热成像对组成
CVC-14数据集:多光谱图像,不是完全重叠的数据。
评价指标:MR(miss rate):MR = 1 - Recall,Recall = TP / GT,TP代表预测为正样本且 预测结果是正确的,GT是真值。

yolo和ssd的区别:

在这里插入图片描述SSD在保证精度的情况下能够达到和yolo差不多的精确度。

稀疏卷积(Sparse Convolution Net

简介
稀疏卷积常用于3D项目(如3D点云分割)中,由于点云数据是稀疏的(不规则的),无法使用标准的卷积操作。同理,2D任务中,如果只处理其中一部分像素,也需要使用稀疏卷积,这样有助于模型加速。

原理解析
本质上就是通过建立哈希表,保存特定位置的计算结果。下文将通过举例说明稀疏卷积的原理。

输入数据
如下图所示,有一个3通道的 5x5 图像。除了两个点 P1 和 P2 之外,所有像素都是(0, 0, 0)。 根据 [1],P1 和 P2,此类非零元素(即P1、P2)也称为activate input sites。输入张量的形状按NCHW 顺序为[1x3x5x5]。在稀疏形式下,[P1,P2]数据列表为 [[0.1, 0.1, 0.1], [0.2, 0.2, 0.2]] ,索引列表为 [[1,2], [2, 3]] 。
在这里插入图片描述
卷积核
稀疏卷积的卷积核和传统卷积一样。下图是一个示例,其内核大小为 3x3。 深色和浅色分别代表 2 个卷积核。

输出定义
稀疏卷积的输出与传统卷积有很大不同。 稀疏卷积有两种输出定义。 一种是regular output definition,就像普通卷积一样,只要核覆盖一个输入点就计算输出点。 另一种称为submanifold output definition。 只有当核中心覆盖输入站点时,才会计算卷积输出。
在这里插入图片描述
如上图所示, 5×5输入图像,3×3 卷积核,stride=1,padding=0,输出张量的尺寸为 3×3。第一行就是regular output definition,例如 (0,0)位置为A1,表示该位置的结果只与输入图像中的P1有关, (0,1)位置为A1A2,表示该位置结果与P1、P2都有关。第二行是submanifold output definition,只有A1和A2有响应。不同的颜色要表示输出的不同通道。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值