科大讯飞,机器视觉算法研究员

视频面试经历,科大讯飞,机器视觉算法研究员(一面)

2017年03月23日 17:54:39 Adam_fei 阅读数:8717

 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/Adam_fei/article/details/65446726

  两位面试官都有发问。由于先视频后音频,我不太能分清是哪位面试官提的问。

  先是自我介绍。因为所做项目和岗位匹配度很高,面试官也是同方向的,所以让我很详细地介绍了项目过程。介绍完成后对于项目细节提了很多问题,如:

  · 如果让现在的你去做本科时候入门的限速标识检测你会怎么做;(引入机器学习,大规模收集test sample,不囿于限速标志);

  · 怎样用机器学习的思想完成你本科项目中对于数字的识别部分【我回答的不是很到位,面试官补充道:你想想你自己用肉眼识别总结数字特征规律和机器学习的方法有什么区别和共同点(具体问法忘了)】;(我自己肉眼识别,在sample数很小的情况下,光凭观察看出特定数字的矩阵内数字分布情况;但如果是机器学习,计算机起初不知道怎样的特征对应着什么数字,我们就输入很大的一个sample set,通过sample 和lable的对应来让机器判断怎样的特征属于什么数字)

  · 怎样用机器学习的方法来解决最初的分割特定的包含着限速标志的区域?(懵了,这个步骤在我心里一直属于预处理的阶段。我的回答是:交通标识的形状特征和颜色特征都是很明显的。可以把这个问题转化成颜色识别和形状识别。在我当初的做法中,因为处理的照片都是我自己拍摄的,它们的颜色特征和形状特征都很明显。但是如果要运用到实际生活当中,在不同光照环境和角度的情况下,颜色信息和形状信息都很不明显,所以需要用大量的训练集,通过机器学习的方法让计算机知道怎样的颜色区间和形状区间属于限速标志,从而分割出特定区域)【我简直觉得我在不懂强答。。。】

  · 解释一下池化层和反池化层具体的工作原理;(pooling层我用的是max法,每一个downsample层我的特征矩阵长宽都会减半,从512*512变成256*256。于是我先把512*512的矩阵分割成256*256个小矩阵,然后取矩阵中的最大值。反池化则是把最大值还原,其余部分添零);

  · 你做的到底是去噪还是分割;(这里其实是我没有搞清楚去噪和分割的概念,让面试官重新问了一遍,新问题如下)

  · 你的论文题目写的是denoising,但是你告诉我们你得到的是二值化的图像所以你的去噪和分割是同时完成的吗?(这要结合我这个项目的目的。我们是和新加坡科技研究局底下的一个生物实验室进行合作,他们给我们提供的细胞图像。他们想研究的是细胞的生长周期。所以他们关注的是在一个时间序列上同一个位置的细胞图像的大小变换。虽然我们最终得到的是二值化图像,但是这个结果对他们来说是有效的)

  · 我懂了,所以你们做的其实是分割,你的论文题目写的不是很准确。

   · 解释一下你说的准确率97%是怎么来的;(首先我需要说明的是,在他们给我们提供的数据中,他们的label是不完善的。在把training set跑完之后,我们的分割成功率是要比label多的【被打断】)

  · 他们给的不是人工标注的label吗?(不是的,他们所给的label是经过他们初步分割的。比如一张原始细胞图像上有20多个细胞,他们的label只分割出了10个,但是分割结果都是对的。对于同一张图像,我们的网络就能分割出更多的图像);

  · 所以你们的97%是怎么来的(因为我们没有ground truth。所以我们就挑了有100多张图片,大家分工去数有多少TP,FP,然后算出的F-score);


  · 所以97%是F-score对吧。我就想知道这个,因为分割问题没有所谓的准确率,你描述的不准确,你说F-score我就懂了

  
  · 你怎么解决细胞大小不同的情况,就是说一张图片上有很大的细胞也有很小的细胞,你怎么做才能让他们都被检测到(我没怎么想过。考虑了几秒钟我说:我觉得得看label。如果label大小都有标记的话,那可能就都能识别。如果只标记了大的,可能小的就识别不了。)【之后面试官补充:你做的已经达到你想要的结果了,所以你可能没想过这个问题。我给你一个方向,你可以从今年最新的分割论文里找。如果你想丰富知识的话,可以去看一看】(好的我会去下载来看的);


  · 你知道关于卷积神经网络,或者说神经网络其他方面的运用吗,比如物体检测(行人检测,车辆检测,这个我在学习基础知识的时候有了解过,但是因为和我所要处理的问题方向不同,所以没有太过了解)

  · 没关系,你随便说说,我就想了解一下你的背景知识(好的。因为我没有详细学习过,所以不能用术语叙述,我就只能描述一下。物体检测也是将隔一段时间取视频的某一帧,然后对这一帧静态图像做处理。从监视器视角看,目标物体的大小不同。首先用一个方框去扫描整个画面,看方框内的物品特征是否符合要求,若有,这就是我们要找的目标,提取出来;然后将方框变大,继续扫描。重复此过程,当方框的大小超出一定阈值之后,停止扫描。我们就得到了待检测的目标区域);


  · 好的,再问一个问题。你的神经网络里用到了一个ReLu的激活函数,你说一说这个激活函数比传统的Sigmiod函数好在哪儿。(我简直要哭出来了,果然这么经典的问题又问了一遍。果断直接说:首先二者的数学公式不同blahblah,Relu的优点在于1.计算量比Sigmoid小,因为blahblah;2.解决了梯度消失的问题,因为blahblah;3.有一个更低的激活率,因为blahblah,所以ReLu更好);

 之后没有技术性问题了,他问了我是否愿意留在合肥,家乡在哪,生日是哪一年,有没有女朋友,她是否愿意回国,期望薪资水平等等。

  最后经典的问题:“你有什么想要问我的吗?” 

  我问了:“科大讯飞是一个技术很强的公司,在语音识别技术上是全球领先的地位。包括在最近的锤子发布会上,科大讯飞又在全国范围内提升了一个知名度。我想问的是,对于一家语音识别技术公司,对于图像处理有什么要求呢?贵公司在这方面有什么规划吗”

  他回答:“是这样的,我来给你说说讯飞这家公司。讯飞在一项技术成熟之前是很低调的。可能在外界得不到相关信息,但是讯飞已经进入了很多领域。比如智慧阅卷领域,很依赖图像处理,比如陶晓东最近加盟了讯飞,扩展智慧医疗服务。并且在这些方面讯飞已经做了很多,项目组的人数也很多了。”

  最后我问了什么时候能得到结果通知,得知一两周之内HR会通知之后,结束了面试。

  一个小时后得到了一面通过的消息。

---------------------------------------------------------------------------------分割线----------------------------------------------------------------------------------------------------

  总结:1.知道了去噪是降低噪点而不改变目标物体的信息。分割是从原始图片中分离出目标个体。

             2.关于技术的问题回答地结结巴巴,需要多锻炼,需要更加熟悉项目本身以及延伸问题。

             3.对于自己领域最新的发展需要很好地掌握,比如面试官提到的最新的两篇论文(之后我会下载下来观看)。

 以上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值