也算探索了几个月吧,在给自己定位。
定位是,分布式系统,机器学习,自然语言处理,计算广告,推荐。
这里的分布式不是指基础计算平台,比如分布式存储之类的,而是指分布式计算。
公司不像实验室可以给你一个高性能的巨型计算机,一个T的内存,几十个高性能CPU,在这个环境下,只需要像普通pc编写程序即可。
公司有的是几千台普通电脑,用些电脑实现分布式计算。而这里的分布式有两种形式,一种是hadoop类似的,但是这种方式比较简单,无法实现复杂的算法,具体的说,就是每个计算任务最好都没有交互。另外一种就是基于mpi,实现复杂,但是适合复杂模型的训练。
对于互联网公司最赚钱的就是广告点击率预测,是一个逻辑斯特模型。
在公司中,一般是用hadoop处理数据,比如特征抽取,mpi实现模型训练