阿里实习感悟

  9月2号结束了在阿里的两个月实习,在快离职的时候还得知了今年阿里缩招的消息,坦白说心里还是有点不爽的,尤其是看到其他的实习生都很愤慨,自己也不免受到点影响。好在其他公司很慷慨的给我们提供了绿色通道,回到北京之后也陆续接到了几家公司的面试邀请,其中一个还得到了口头offer,算是稍微松一口气,起码不会因为阿里缩招而失业了。也有时间整理一下思绪,写点在阿里实习的感悟。

     在去阿里实习之前,我曾经在法国电信北京研发中心实习过一段时间,在此期间主要的研究方向是计算机视觉中的人脸识别方向。虽然也是在公司实习,但是它的氛围更像是在实验室,因为不需要接触具体的业务,我们的任务是跟进业界最新的研究成果,然后将其实现并改进,提供服务给法国电信总部使用。而去阿里实习所做的主要是文本方面的算法的研发。下面主要从两个方面来谈。

  首先从在实验室做算法和在公司做算法的区别来谈:首先,在实验室做算法,往往需要对业界最前沿的算法进行跟进,例如对于计算机视觉来说,我们每年都要关注三大顶会CVPR,ICCV,ECCV的论文,从中找出有用的论文来进行研究,实现,改进,从而不断的提升不同任务的performance;而对于业界的潮流也是自然要追一追的,现在深度学习这么火,做CV的不装个caffe或CudaConvnet跑一跑实验,你好意思么? 但是在公司则完全不一样了,对于公司来说,算法最重要的一点是要能带来效益,只要能带来效益,哪怕你用最简单的加加减减,算个概率就能得到很好的效果,也是可以的,对于业界最新的研究成果,工程师们会关注但不一定直接将其应用在业务中,因为这些算法往往是在一些特定数据集上取得好的效果,但是在实际的业务场景中能否有效不知道,并且一个算法从被发明到真正被普遍应用往往要经过很长时间的改进。也正因此,在针对特定的业务进行算法研究时,往往选用的都是一些比较经典的算法,例如SVM,朴素贝叶斯等。而在公司还要考虑的一个问题就是那些badcase,在实验室做算法,我们可能认为很小比例的badcase是很正常,有时候就直接忽略掉了;但是在公司里,这些badcase都直接体现在实际的业务效果中,例如我在阿里巴巴所负责的反作弊的算法,出现1%的badcase,往往就会使得申诉量增加几万个,从而加大了我们的工作量。因此在公司里,我们要对每一类badcase都进行分析,看这些badcase能不能通过算法进行改进,如果改进不了是不是要加入人工干预等。如果不考虑这些问题,则你的算法可能会带来更大的损失。

    其次,从做计算机视觉算法和做文本数据挖掘算法的区别来谈:对于图像来说,其最基本的特征就是像素值,并且这些像素值是结构化的,我们有很多种方法可以直接提取出图像上的特征,人工设计的特征例如LBP,SIFT等,现在有了深度学习,我们可以用CNN提取出高级特征。不管你的目标是什么,在提取特征这一步你尽可以从这几种特征中去选择,然后再考虑选用何种算法来完成既定任务。但是对于文本数据来说,它们的特征并不那么明显,也不是结构化的,需要你自己去挑选特征。在做文本方面的算法时,我们可利用的信息可能只是一行行的文本,例如,一个cookie,在某个时间,买了什么商品,成交额是多少等等。这时对于一个没有经验的人来说可能完全不知道该如何下手,因为这些都是文本内容,如何转换成数字化的特征呢? 这便是大公司的那些算法工程师每天都需要考虑的问题:如何构建出有用的特征?对于文本算法来说,没有一个统一的提取特征的方法,你必须通过分析这些数据的特点,比如简单点的统计一下每个cookie的购买时间分布,商品分布,成交额分布,均值,方差。从这些分析结果中再进一步分析哪些特征是比较有用的,当得到这些特征之后再选用算法来完成诸如分类,回归等任务。而后续的这些算法,在上一段也提到了,都是些比较经典的算法,并不复杂,但只要特征选的好,就能取得好的效果。

    以上是我在阿里实习两个月的一些感悟,总的来说在阿里的实习对我的各方面提升还是很大的,它让我知道了一个在一个大公司里做算法是一种什么样的体验,也让我对未来的职业发展方向选择有了更多的想法。虽然最后没法留在阿里,但是这两个月的经历却让我受益匪浅。

posted on 2015-09-10 02:16 moonfighting 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/moonfighting/p/4796640.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值