算法相关
1. 随机森林算法 的优点及具体实现过程https://blog.csdn.net/nieson2012/article/details/51279332
2. 随机森林和GBDT的区别。
https://blog.csdn.net/login_sonata/article/details/73929426
3. GBDT参数调优
https://www.cnblogs.com/pinard/p/6140514.html
4. 如何理解LR
https://blog.csdn.net/cyh_24/article/details/50359055
5. 集成学习方法
https://www.csdn.net/article/1970-01-01/2825965
6. L1和L2范数的问题。L1为啥具有稀疏性?
https://zhuanlan.zhihu.com/p/28023308
7. SVM模型原理
https://www.zhihu.com/question/21094489
8. SVM对偶问题推导
https://www.cnblogs.com/blfbuaa/p/7072420.html
9. 非递归二叉树遍历
https://www.cnblogs.com/SHERO-Vae/p/5800363.html
10. 蓄水池抽样问题
https://blog.csdn.net/huagong_adu/article/details/7619665
11. 链表确定环的起始位置(快慢指针算法)
https://blog.csdn.net/beiyetengqing/article/details/7603997
12. 快速排序&堆排序的时间复杂度
https://blog.csdn.net/wcy6340/article/details/38230639
13. 堆排序建堆复杂度
https://www.zhihu.com/question/20729324
14. 快排在什么时候效率比较低
最坏情况下,是整个序列都已经有序或完全倒序。此时,快速排序退化为冒泡排序,要比较n2次才能完成
15. 单链表如何判断是否相交
https://blog.csdn.net/zwhlxl/article/details/45745825
16. 有大量的数(比如 10的七次方那么多)要进行排序,有什么方法?
堆排序
17. 无序数列中的第K大的数,用什么方法?写代码
https://blog.csdn.net/lj419218388/article/details/13004695
18. 字符串中的最长不重复子串
https://www.cnblogs.com/haozhengfei/p/d0906ebc98f7b6eaecb3ecd738dc78ac.html
19. 如何判断数据是否满足某个分布(比如高斯分布)
20. 如何将数据中的真实值和噪声分离?
21. xgboost的原理,xgboost、gbdt、rf的区别。
https://www.zhihu.com/question/41354392
22. 树模型的特征选择中除了信息增益、信息增益比、基尼指数这三个外,还有哪些?
回归树的话可以用均方差的减少量。xgboost里用到的是自定义函数的增益值。
23. 树模型中,特征选择方法有哪些?
https://www.zhihu.com/question/28641663
24. ID3和C4.5分裂后,节点的信息熵是变大还是变小?变小
https://blog.csdn.net/ljp812184246/article/details/47402639
25. 使用过几层神经网络?用GPU没?特征维度到底多少?服务器配置?
26. 关联规则中,置信度和支持度的概念?
https://www.cnblogs.com/michael-xiang/p/4598150.html
27. 深度学习,CNN中的卷积和池化
https://blog.csdn.net/poorfriend/article/details/51588352
28. 有哪些深度学习模型?
https://baijiahao.baidu.com/s?id=1580219108976210841&wfr=spider&for=pc
29. keras底层用TensorFlow和theano时,代码有何不同?
https://www.cnblogs.com/LittleHann/p/6442161.html
30. TensorFlow原理、流程图,session是啥?
https://blog.csdn.net/weixin_30014549/article/details/52529036
31. 了解FM吗?
https://blog.csdn.net/g11d111/article/details/77430095
32. 机器学习算法中需要注意的一些问题
https://www.cnblogs.com/zhizhan/p/5007522.html
33. 神经网络如何工作
https://www.zhihu.com/question/19833708
34. 朴素贝叶斯的公式
https://blog.csdn.net/tanhongguang1/article/details/45016421
35. Bagging 和 Boosting的区别
https://www.cnblogs.com/liuwu265/p/4690486.html
36. 聚类过程
https://blog.csdn.net/dashenghuahua/article/details/53160546
37. 偏差和方差是什么
https://blog.csdn.net/u013802188/article/details/40513879
38. 高偏差和高方差说明了什么
https://blog.csdn.net/zhf1234abc/article/details/46669661
39. 怎么理解损失函数,SVM的损失函数是什么,写出公式
https://www.cnblogs.com/hoey-ge/p/5587383.html
https://www.zhihu.com/question/62881491
40. 过拟合怎么解决,L1和L2正则化有什么区别
https://blog.csdn.net/losteng/article/details/50942889
41. 为什么用最小二乘而不是最小四乘
因为最小二乘法的目标是最小化误差平方和(MSE),所以是平方(二次方)
42. 使用过什么深度学习框架,相应的原理
https://blog.csdn.net/zuochao_2013/article/details/56024172
编程相关
1. Python中协程的概念,即微线程http://python.jobbole.com/86481/
2. MySQL中索引用的什么数据结构?
B-Tree或B+Tree
3. Hash_table的底层是什么实现的?
拉链法,数组+链表
4. HBase的列式存储解释
https://blog.csdn.net/youzhouliu/article/details/67632882
5. Hadoop中MR是怎么实现联表查询的?
https://www.cnblogs.com/junneyang/p/5850406.html
6. HBase数据库的优点?
https://www.cnblogs.com/Little-Li/p/7877971.html
7. mysql不同数据库引擎的区别。InnoDB和MyISAM
https://www.cnblogs.com/zhangjinghe/p/7599988.html
8. 数据库三范式
https://www.zhihu.com/question/24696366
9. Hadoop中shuffle过程
https://blog.csdn.net/clerk0324/article/details/52461135
10. hadoop资料:
1. https://blog.csdn.net/haohaixingyun/article/details/52819457
2. https://www.zhihu.com/question/24965053
11. 数据结构包括数组,增删链表,树,排序算法等。数据库基本语句,操作系统进程和 线程相关的,计算机网络的TCP/IP协议部分)