特征工程问题汇总
模型优化问题
-
常见的损失函数有哪些?
机器学习中常见的损失函数 -
机器学习中防止过拟合的方法:
- 正则化,L1正则化和L2正则化
- early_stop,设定一个目标损失值,到达之后停止
- 增加数据样本,复采样
- dropout
参考文章:
机器学习中防止过拟合的处理方法
极值点、驻点、鞍点、拐点
机器学习算法模型问题汇总
- 一文搞懂HMM(隐马尔可夫模型)
- 判别模式和生成模式
LR和SVM都是判别模型。
判别模型会生成一个表示P(Y|X)的判别函数(或预测模型),而生成模型先计算联合概率p(Y,X)然后通过贝叶斯公式转化为条件概率。简单来说,在计算判别模型时,不会计算联合概率,而在计算生成模型时,必须先计算联合概率。或者这样理解:生成算法尝试去找到底这个数据是怎么生成的(产生的),然后再对一个信号进行分类。基于你的生成假设,那么那个类别最有可能产生这个信号,这个信号就属于那个类别。判别模型不关心数据是怎么生成的,它只关心信号之间的差别,然后用差别来简单对给定的一个信号进行分类。常见的判别模型有:KNN、SVM、LR,常见的生成模型有:朴素贝叶斯,隐马尔可夫模型。
-
SVM模型主要问题
参考文章:SVM如何用于回归分析
机器学习之svm专题- SVM要点:
距离度量,支持向量,损失函数,对偶问题,拉格朗日乘法,核函数,软间隔, 松弛变量
- SVM要点:
-
EM算法的E步和M步分别在计算什么?
E步:计算对于一个参数Q,它的对数似然函数的联合分布的条件概率期望,这是用到了jason不等式
M:极大化这个条件概率期望,得到一个新的参数Q1
之后在进行E步直到参数Q收敛
参考EM算法原理总结 -
逻辑回归和线性回归的比较
不同点:- 最本质的区别是逻辑回归解决的是分类问题,而线性回归解决的是回归问题
- 逻辑回归求解的是二分类问题下的对于y的一个期望概率, 线性回归最后得到的是直接对于y的近似值
- 逻辑回归的因变量y是离散的,线性回归的因变量是连续的
- 逻辑回归的因变量满足二元分布,线性回归的因变量需要满足正太分布
相同点:
- 都采用了梯度下降的方法
- 都使用了极大似然估计对训练样本建模
-
ID3 C4.5 CART三者的比较
看葫芦书P66
-
逻辑回归的损失函数
- 逻辑回归采用的损失不用squre loss?
损失函数会变成非凸,不能得到一个全局最小值。
- 逻辑回归采用的损失不用squre loss?
-
逻辑回归的常见面试点总结
逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。
这里面其实包含了5个点 1:逻辑回归的假设,2:逻辑回归的损失函数,3:逻辑回归的求解方法,4:逻辑回归的目的,5:逻辑回归如何分类。这些问题是考核你对逻辑回归的基本了解。
【机器学习】Logistic Regression 的前世今生(理论篇)