这几天忙着面试,终究因为身份问题死在了hr的流程关。下面打算继续写blog!
前两周一直在写关于weka源码的文章。这个当然还要继续,但是想让blog更加多元化,毕竟我兴趣的本身是model,而不是develop。
先说说面试吧
面试总场数也有差不多20+了,感觉基本都一样,代码+机器学习/数据挖掘+统计优化+算法+大数据工具(hadoop、spark)+具体应用场景+项目实习。
代码:主要问熟悉哪些语言吧,然后是各种内存管理、操作系统之类也会问问(数学系的表示从来没答上过)。
机器学习/数据挖掘:问的比较多的有LR, GBDT, SVM, Decision Tree, Neural Network。这几个分类算法问得很多,聚类很少问,很奇怪。回归也会问一些(L1和L2)。
然后还有一个几乎所有面试都问的问题。 dimension reduction! 所以,我打算在6月底之前,好好地总结一下,特征选择、特征提取的东西。
统计优化:统计方面被问的不多,主要就是问问线性回归之类的东西,假设检验啊,置信度啊。优化主要是梯度下降、拟牛顿、共轭梯度、LBFGS,还有SMO。
算法:这个只能靠刷题了,反正7月份开始,每天3题,雷打不动!
大数据工具:这个真心难办,虽然用过hadoop和spark,但是都是太简单的应用了。基本打算还是主要读别人的代码为主(各种机器学习算法的实现)
具体应用场景:这个问题也是每次都被问到,算是考察是不是书呆子吧? 对于如何准备这种问题,我的想法是kaggle! 把kaggle的比赛,总结一下即可。
所以近期和远期打算如下:
1. weka继续,预计一周出产1 - 2个算法。
2. 7月之前,写完feature extraction和feature selection的总结博文。
3. 每周总结分析一个kaggle案例。
4. 7月开始后,每天3道算法题!
5. 剩下的时间看看dl和semi的东西~