文章目录
1.TFIDF优点和缺点
2.相似度计算有哪些方法(Jaccard、欧氏距离、Cosine)
3.朴素贝叶斯算法,对缺失值、异常值是否敏感
4.朴素贝叶斯为什么适合增量计算
5.朴素贝叶斯的优缺点
6.逻辑回归和朴素贝叶斯的区别?
- 逻辑回归是判别模型,朴素贝叶斯是生成模型
- 判别模型:逻辑回归是直接对P(Y|X)直接建模、学习和求解,是在给定观测变量值前提下目标变量的条件概率模型
- 生成模型:所有的变量是全概率模型
7.线性回归和逻辑回归的区别?
- 线性回归样本的输出都是连续值,逻辑回归的输出只能取0和1
- 拟合函数也有区别:
- 线性回归:f(x) = θ1x1 + θ2x2 + …… + θnxn
- 目标是拟合函数
- 逻辑回归:f(x) = p(y=1 | x; θ) = sigmoid(1 / (1 + e^-z))
- 目标是拟合对1类样本的概率
- 线性回归:f(x) = θ1x1 + θ2x2 + …… + θnxn
8.随机梯度下降(SGD)和批量梯度下降(BGD)的区别
9.什么是AUC
AUC是描述负样本出现在正样本前面的概率
10.模型中的w参数,为什么不能过大?
容易导致梯度更新波动大
11.什么是正则化项?
简单理解,就是在损失函数中增加范数,添加了约束,让w参数学的更小,如果是L1正则的话,除了让w学小之外,还可以过滤掉影响较小的特征,让模型变的更简洁,可解释性更好
12.过拟合的问题?
(1)如果数据中有噪音,模型如果把噪音也学的非常好的话,导致模型失效
(2)如果模型参数学习的很大,会导致求sigmoid函数预测的时候,导致输出值很大,容易使得误差变的很大,从而导致了更新中,带来了更多的波动
(3)w参数值很大,容易过拟合,哪怕是影响不大的信号,在面对巨大的w的时候,容易把其影响力放大,这是不合理的
13.解决过拟合的方法?
- 降低模型复杂度 处理过拟合的第一步就是降低模型复杂度
- 增加更多数据:使用更大的数据集训练模型
- 数据增强,对原有样本做变换,图像中常用,比如把一个正常的图片进行翻转
- 正则化,L1和L2
- dropout,网络减枝
- 早停
- 重新清洗数据:把明显异常的数据剔除
- 使用集成学习方法:把多个模型集成在一起,降低单个模型的过拟合风险
- BatchNorm,批量归一