BAT机器学习面试1000题

最新推荐文章于 2022-01-05 14:46:31 发布

遥远的停止线前

最新推荐文章于 2022-01-05 14:46:31 发布

阅读量302

点赞数

请简要介绍下SVM
SVM，全称是support vector machine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为确定一个分类超平面，从而将不同的数据分隔开。
扩展：
支持向量机学习方法包括构建由简至繁的模型：线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机；当训练数据近似线性可分时，通过软间隔最大化，也学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机；当训练数据线性不可分时，通过使用核技巧及软间隔最大化，学习非线性支持向量机。
SVM详细介绍
请简要介绍下Tensorflow的计算图。
请问GBDT和XGBoost的区别是什么？
XGBoost类似于GBDT的优化版，不论是精度还是效率上都有了提升。与GBDT相比，具体的优点有：
1.损失函数是用泰勒展式二项逼近，而不是像GBDT里的就是一阶导数；
2.对树的结构进行了正则化约束，防止模型过度复杂，降低了过拟合的可能性；
3.节点分裂的方式不同，GBDT是用的基尼系数，XGBoost是经过优化推导后的。
在k-means或kNN，我们是用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离？
曼哈顿距离只计算水平或垂直距离，有维度的限制。另一方面，欧氏距离可用于任何空间的距离计算问题。因为，数据点可以存在于任何空间，欧氏距离是更可行的选择。例如：想象一下国际象棋棋盘，象或车所做的移动是由曼哈顿距离计算的，因为它们是在各自的水平和垂直方向做的运动。
List item
简单说说特征工程。
数据处理
解决量纲不一，数据归一化
虚拟变量，独热编码，非数值型转换为数值型
缺失值填充
缺失值产生原因
有些信息暂时无法获取；
有些信息被遗漏或者错误的处理了
缺失值处理方法
数据补齐，补none，0，或者机器学习预测，查看分布根据缺失情况补，众数中位数
删除缺失行
不处理
特征选择
特征个数越多，分析特征、训练模型所需的时间就越长。
特征个数越多，容易引起“维度灾难”，模型也会越复杂，其推广能力会下降。
方差选择法(过滤法)
相关系数法
递归特征消除法
模型选择法
维度压缩
当特征选择完成之后，就可以直接训练模型了，但是可能由于特征矩阵过大导致计算量大，训练时间长的问题；因此，降低特征矩阵维度，也是必不可少的
1 特征工程是什么？
2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2.5 数据变换
3 特征选择　　3.1 Filter　　　　3.1.1 方差选择法　　　　3.1.2 相关系数法　　　　3.1.3 卡方检验　　　　3.1.4 互信息法　　3.2 Wrapper　　　　3.2.1 递归特征消除法　　3.3 Embedded　　　　3.3.1 基于惩罚项的特征选择法　　　　3.3.2 基于树模型的特征选择法
4 降维　　4.1 主成分分析法（PCA）　　4.2 线性判别分析法（LDA）

特征工程知乎
关于LR。
过拟合怎么解决
重新清洗数据
增大数据的训练量
采用正则化方法
采用dropout方法
欠拟合怎么解决
添加其他特征项
添加多项式特征
减少正则化参数
LR和SVM的联系与区别？
1、LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题（在改进的情况下可以处理多分类问题）
2、两个方法都可以增加不同的正则化项，如L1、L2等等。所以在很多实验中，两种算法的结果是很接近的。
区别：
1、LR是参数模型，SVM是非参数模型。
2、从目标函数来看，区别在于逻辑回归采用的是Logistical Loss，SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。
3、SVM的处理方法是只考虑Support Vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。
4、逻辑回归相对来说模型更简单，好理解，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些，SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。
5、Logic 能做的 SVM能做，但可能在准确率上有问题，SVM能做的Logic有的做不了。
L1和L2的区别
1、L1是Lasso Regression，表示向量中每个元素绝对值的和：L1范数的解通常是稀疏性的，倾向于选择数目较少的一些非常大的值或者数目较多的insignificant的小值。
2、L2是岭回归，Ridge Regression，是欧氏距离也就是平方和的平方根。L2范数越小，可以使得w的每个元素都很小，接近于0，但L1范数不同的是他不会让它等于0而是接近于0。
3、L1正则化的w可取的值是转置的方形，L2对应的是圆形。这样损失函数l（w）的最小值更容易在L1对应的边角上取得，从而这些维度变成0了。
从贝叶斯的角度来看，加入正则项相当于加入了一种先验。即当训练一个模型时，仅依靠当前的训练数据集是不够的，为了实现更好的泛化能力，往往需要加入先验项。
L1范数相当于加入了一个Laplacean先验；
L2范数相当于加入了一个Gaussian先验。
4、L2对大数的惩罚更大，但是解相对来说比较均匀。
LR与线性回归的区别与联系？