1、为什么要经常对数据特征做归一化? 2、为什么需要特征组合?如何处理高维组合特征? 3、欧式距离和曼哈顿距离的区别? 4、 哪些场景使用余弦相似度?哪些使用欧式距离? 5、什么是独热编码?相较于直接使用数字作为表示的优点是什么? 6、简述过拟合和欠拟合的具体表现? 7、缓解过拟合和欠拟合的方法有哪些? 8、L1和L2正则先验分别服从什么分别? 9、为什么树形结构不需要进行特征归一化? 10、数据不平衡是什么?如何解决数据不平衡问题?