凡是互联网公司的算法工程师,几乎清一色都是Python流,所以Python是肯定要学的。
除了Python之外还有一门语言是少不了的,就是C++。C++主要是用来应付面试中的算法编程题,首先一个是C++默认是各大高校的必修课,另外一个是C++是默认的竞赛语言。几乎所有的online judge(在线评测平台)都一定支持C++,但支持Python的很少。
除了Python和C++之外,最好还需要会一门后端语言,比如Java、go等。
一个好的算法模型一定是基于大量数据训练的基础上的。所以大数据的相关知识也是这行的入门必备技能,同样,由于通常是作为工具使用,所以很难会在面试当中做要求,主要还是在实际工作当中使用。
大数据这个部分往往没有一个统一的规范或者是标准,有些大公司(如阿里)甚至有自己完全造的轮子。一般来说主流还是基于hadoop家族,只不过各个公司的侧重点可能不同。有些偏好spark,有些喜欢hive,还有些可能还是更早的MapReduce。
国内外网站
如果你想搜索比较新颖的机器学习资料或是文章,可以到以下网站中搜索,里面不仅包括了机器学习的内容,还有许多其它相关领域内容,如数据科学和云计算等。
InfoWord:http://www.infoworld.com/reviews/
Kdnuggets:http://www.kdnuggets.com
Datasciencecentral:http://www.datasciencecentral.com/
Datascienceplus:http://datascienceplus.com
数据分析网:http://www.afenxi.com/
数据科学竞赛
关于数据分析的竞赛,国内国外都有,下面推荐几个比较火的竞赛网站 :
Kaggle 比赛,网址:https://www.kaggle.com/
DataCastle 比赛,网站:htt