1.甚么叫极大似然估计?
思想:让样本出现的概率最大化。
2.判别式模型和生成式模型?
生成式模型先需要对联合概率分布进行建模,然后计算后验概率来得到模型。
判别式模型直接用条件概率分布或者决策函数作为模型。
生成式模型:朴素贝叶斯、、贝叶斯网络、混合高斯模型、K-MEANS、隐马尔可夫模型、马尔科夫随机场 、主题模型(LDA & PLSA)
判别式模型:线性回归、逻辑回归模型、最大熵模型、决策树、bagging和boosting模型、支持向量机、k近邻法、条件随机场
3.矩阵的求导?
附加公式:
4.正态分布和拉普拉斯分布?
5.偏差和方差?
偏差(预测的期望值偏离真实值的程度):预测的期望值减去真实值 Boosting降低的是偏差(树是不断提升的过程)!
方差:预测值减去预测的期望值 Bagging降低的是方差(有投票和取均值的过程)!
在监督学习中,模型的误差可分解为偏差,方差和噪声
导致偏差和方差的原因?
偏差:通常是欠拟合,模型的复杂程度不够,
方差:通常是过拟合,模型太复杂了,
7.L1和L2正则?
L1:通过减少特征产生稀疏矩阵来防止过拟合。
L2:通过减少每一个特征的参数值来防止过拟合。
8.频率学派和贝叶斯学派?
(MLP)频率学派认为模型的参数是一个未知固定的定值,一般可以用极大似然估计去求解。
(MAP)贝叶斯学派认为模型的参数是服从一个先验的分布,先要假设该参数服从一个先验分布,然后加上极大似然估计
再去求解参数的后验分布。
9.先验概率,后验概率,似然概率?
先验概率:可以直接通过统计的方法求得的概率!
后验概率: 就是条件概率分布,我们的目标
似然概率:P(x|y)是条件概率,为了区分一般意义上的条件概率,也称似然概率
10.超参数选择?(sklearn 的 Grid Search网格搜索)
11.最大似然估计(MLE),最大后验概率(MAP)?
最大似然估计:属于频率学派,认为参数是一个固定的值
最大后验概率:属于贝叶斯学派,这个参数有一个先验概率。通过最大化似然概率×先验分布!
两者都是用于模型已知,参数未知下对参数进行估计的方法!(区别在于是否有先验概率)
12.余弦相似度和欧氏距离的关系和区别与联系?
联系:都可以看成距离的一种度量。
区别:归一化:余弦相似度度量的是向量之间的夹角,未归一化:欧氏距离度量的是直线距离。很难有一个上界进行度量。
13.准确率,精确率,召回率,F1值,roc曲线?
准确率:所有预测对的 / 所有样本
精确率:正例预测对的 / 预测了多少正例
召回率:正例预测对的 / 实际的正例数
F1值:精确率和召回率的调和均值。(当两个值都很高,F1值才会高)!类似P-R曲线
roc曲线:x轴负样本的召回率,y轴正样本的召回率!
14.缺失值处理?
缺失太多:直接drop列
缺失不多:考虑直接拟合,考虑填充(数值型的填均值,平均值,类别型的单独拉成一项)
15.介绍一个完整的项目?
1.明确任务目标:是分类、还是回归,或者是聚类。
2.数据获取:文件,数据库....
3.数据预处理与特征选择(特征工程):异常值检测,缺失值处理,方差/标准差筛选,模型的特征选择
4.模型训练与调优:grid search超参数
5.模型诊断:过拟合(降低模型复杂度,去特征,加正则),欠拟合(生成特征,提高模型复杂度)
6.模型融合/集成(可有可无看需求):多个分类器进行加权融合(blending)!
7.上线运行:时间空间消耗,准确度,等等
16.信息增益? I(X,Y)=H(Y)−H(Y|X),等价于互信息。
17.多分类logistic回归模型?
softmax函数是由最大熵模型求出来的,而不是多分类的逻辑回归!!!!
18.决策树的训练分几部分?特征选择,递归的生成一颗树,剪支
19.ID3,C4.5,CART分类树(二叉树)?都是分类树,特征选择分别依据:信息增益,信息增益比,基尼系数(找最优特征和最优切分点)
20.CART回归树(二叉树)?
通过二分的均方误差(找最优特征和最优切分点)
提升树是以CART(二叉树)树为基分类器的!
21.学习率选取问题?(过大,过小,选取方法)
过大:可能会直接冲出最低点,然后损失函数的值就会逐渐上升!
过小:如果优化的模型非凸,很容易陷入局部最优点(坑坑洼洼很不平整)!
选取方法:考虑先选取大一点的(下降速度快嘛),如果loss上升就每次减一些,综合考虑选一个较忧的学习率!
22.梯度下降的三种形式,进行对比?(batch mini-batch ,DL,ML)
batch:学习比较稳定,不适合非凸模型优化
mini_batch:增加了随机性,适合非凸模型优化,比如DL的DNN模型
SGD:随机性太大,一般不建议,会出现loss很不稳定的形态!
23.过拟合,欠拟合?(模型复杂度,特征,样本,正则化项)
过拟合:模型太复杂了,数据量比较少。可以提一句树模型的过拟合,一般模型加正则。
欠拟合:模型太简单,特征挖掘不够。
24.牛顿法,拟牛顿法(lbfgs,bfgs),共轭梯度?
牛顿法利用了二阶导的信息对梯度下降的速度进行了优化,但是遇到了二阶海森矩阵不可逆问题
拟牛顿法处理了不可逆问题,利用一个矩阵来近似海森矩阵,lbfgs对bfgs进行了空间优化(就类似DP里面的空间优化)
共轭梯度:介于牛顿和梯度下降法之间的一种,利用一阶导信息来利用历史搜索信息来进行处理
25.逻辑回归的多分类问题?(多个二分类,softmax)
直接推广到多分类模型:这个就是一个推广没啥好说的嘛!
多分类模型到softmax模型:
这个是通过最大熵原理,定义条件熵模型,通过引入拉格朗日乘子给模型引入参数进行学习!然后利用对偶关系进行学习的
一个过程,才引出的softmax模型!
利用N个logistic模型来处理!(多分类转化为二分类)
26.最大熵原理?最大熵求出的模型?(对原模型引入参数进行学习)
最大熵原理:在没有更多先验的条件下,对未知的事物不做任何假设让分布均匀离散化!
最大熵模型:在最大熵原理条件下,认为不做任何假设的模型就是最好的,利用条件熵建模,给模型引入参数来进行对偶化学习!
27.介绍ML算法,一定从引入原因,假设函数,损失函数去介绍!
线性回归:模型,假设误差服从中心极限定理,在利用极大似然估计引出损失函数,
逻辑回归:把线性回归通过sigmoid函数的映射得从而到模型,变为分类问题。假设二分类,服从二项分布,建模进行极大似然估计得到log损失函数。
svm:假设线性可分:通过找到距离最近的点然后在最大化间隔的一个优化过程,模型sign(超平面)进行二分类!
28.啥是核函数?介绍各个核函数?
核函数:K(x, y) = <f(x), f(y)>(向量的内积/点积),f(x)是n到m维的映射!
内积计算得到内积空间->希尔伯特空间!实际上就是空间的映射!
就是低维到高维的过程使用内积来完成,而内积的运算使用核函数来代替,可以达到简化计算的过程!
linear_kernel:矩阵的点乘,没有进行高维空间的映射
polynomial_kernel(多项式核)
RBF_kernel(高斯核函数/径向基核函数)
线性核(Linear Kernel)
ps:核函数说到底还是加强了特征,使模型的效果变的更好。
29.信息增益比和信息增益?(分的越细/好....看书)
信息增益:在该特征下分的越好不确定性减少越多值越大。
ps:用ID号来说明信息增益的过拟合问题。
信息增益比:属性分的数目越多熵值(求和的过程)一般越大,惩罚越大,
30.ID3,C4.5,cart回归树如何构建?(cart树即二叉树)
ID3:每次选择信息增益最大的特征,递归式构建(可不是二叉树)
C4.5:每次先选择信息增益高于一半的特征,然后在选出一个信息增益比最高的特征,递归式构建(可不是二叉树)
cart回归树:每次选择最有特征和最优分割点,进行二分递归构建(二叉树)
ps:cart树的二叉结构也可以看成是是对多叉树过拟合问题的缓解。
)
31.boosting和bagging介绍?(构建,串并行,方差偏差)
boosting:是一种分类器的提升方法,每次都可以根据上一个分类器的错误做出调整,来更好地应对,逐步增强的一个
过程,由于使用了前向分步算法所以只能串行,模型更偏重于偏差(预测的期望值与实际值的偏差)
bagging:是一种分类器投票或者取均值的一种模型,从样本有放回的采样n次,就可以构建n个分类器,然后产生n个
结果进行平均下或者投票,来决定最终结果,由于无序所以可以并行处理,主要偏重于方差的降低(预测结果和预测结果均值的差距)
ps:先介绍两个算法的主要思想,再说区别:串并行,基分类器。就差不多了。
32.提升树的残差和GBDT的负梯度是怎么回事?(注意:基分类器)
提升树的残差是当损失函数是均方误差时,分类器每次只需要拟合前n-1个分类器的残差(真实值与实际值绝对值的差)即可,
而梯度提升树的话适用性更强,因为它可以应用于各种损失函数,通过负梯度近似残差,来不断的提升分类器!
而且GBDT的基分类器是:cart树从名字就能看出来!
33.Adaboost的构建?(依据前m-1个分类器更新样本权重和系数)
构建第m个分类器的时候,会依据第m-1个分类器的结果来改变样本的权值分布来确定模型,再把模型进行预测根据越策结果定义模型的系数。在不断重复的迭代模型即可。
34.k-means簇服从高斯分布?k值选择?(样本离簇中心越近越可能在该簇,K值根据先验,MSE找拐点,ISODATA)
k值的选取
根据业务背景进行确定k值,对每个簇计算均方误差然后加和,与k值构建一个表,k值越大误差越小(极限的思想),在误差降低最快的那个k值就选取这个k即可!
K值的初始化?(KMEANS++)
随机初始化,先确定一个簇中心,对每个样本计算簇中心的距离,选择最大的一个当第二个簇中心,在用所有样本计算到这两个簇中心距离和最大的点,为第三个簇中心,依此类推,直到K个!
35.层次聚类怎样构建?(准则)
自底向上进行聚类,每次合并距离最小的两个簇,距离的度量可用均值,最近点,最远点,中心点的距离!
还有自底向下的分割,直到产生k个类!
36.DBSCAN的密度相连?
尽可能的往外扩充只要可以由密度可达关系推导出密度相连关系即可,密度可达可以用一个序列来说明1,2,3....n,第二个样本在以第一个样本点为中心的范围内(1为核心对象,范围为邻域)则1到2为密度直达,依次递推,每相邻两个点满足密度直达,则说明1与n密度可达!两个密度可达的核心点能找到一个点,让这两个核心点在该点的邻域范围内,这两个密度可达点即密度相连!
37.EM算法简述?(怎样引出,分两步走)
引出:极大似然估计对于含有隐变量的模型不适应,这时em算法就出现了,来处理这个问题
38.朴素贝叶斯?贝叶斯网?
39.主题模型?(解决的问题,大致流程,简述plsa,lda)
40.合页损失和交叉熵损失?(svm和lr引出,满足性,梯度特性)
41.PCA降维的两种方式?(特征值分解(只能列降维)和奇异值分解(行和列都可降维,左右奇异矩阵),对应方阵和非方阵)
42.频率学派和贝叶斯学派?(与生成式和判别式模型比较)
频率学派是给定参数让样本出现的概率最大化使用极大似然估计,(参数固定)
贝叶斯学派是在频率学派的基础上加了参数的先验分布使用最大后验概率!(参数服从某种分布)
生成式模型是直接对后验概率或者判别函数进行建模,
判别式模型是先对概率分布进行建模,然后通过贝叶斯公式在得到模型!
43.lr,svm,树模型对比?(lr属于线性模型,偏爱类别特征(含义浅显,适合简单模型);svm属于线性模型还可以利用核函数变为非线性模型;树模型是非线性模型,偏爱这种连续特征(隐层含义强,适合复杂模型))
44.树模型的缺失值处理?(
默认xgboost:会把缺失样本放入左右节点计算损失选择较忧的一个即可,测试的时候默认是右子树;
ID3,C4.5这种模型:可以去掉缺失样本,给模型最终乘上一个系数;可以把缺失样本以不同权重分到叶子节点里。(权重是缺失值的个数/总数))
48.朴素贝叶斯说说?(贝叶斯进行建模时由于特征依赖关系,条件概率计算非常复杂,而朴素贝叶斯假设特征之间两两之间独立,且权值相同都为1)
50.线性判别模型LDA?(
将样本点进行投影然后进行降维,让同类数据之间的距离最小,不同类数据之间的距离最大,有监督学习的降维
二分类可以降到一维进行解决,而多分类可以降到k-1维(最多是k-1维度),来进行处理。
ps:LDA 降维是直接和类别的个数相关的,与数据本身的维度没关系,比如原始数据是n维的,一共有C个类别,那么LDA降维之后,一般就是1维,2维到C-1维进行选择
与PCA进行比较:先说主要思想,再说有无监督学习,再说降低维度的局限性。
)
51.xgboost和gbdt区别?(
二阶导与一阶导:对原始损失利用二阶泰勒展开,产生了新的树的建立准则。
过拟合的优化:在原有的行列采样,学习步长的基础上在建树准则上增加了正则项和树的复杂度。
大样本量上的优化:利用了直方图算法,主要思想就是加权的分位点算法。
)
52.xgboost的特征选取和特征重要度排名?(特征每次都会选取最优的特征和最优的切分点利用loss函数推导出的loss公式带入到信息增益公式中,每次选择最优的特征和最优的切分点,特征被选取的次数越多重要性越高)
53.防止过拟合?(
先考虑为啥产生过拟合,在进行解决。就是样本太少,模型太复杂,以至于模型把这些样本都记住了。
考虑增强样本(生成样本,利用上采样),降低模型的复杂度(加正则项,树模型可以加一些采样学习步长,svm换核函数,利用bagging思想进行模型融合,实在不行直接换模型),深度学习上还可以使用dropout来缓解过拟合。
)
54.特征选择?((基于PCA的方差最大化理论)方差选取,(衡量特征之间的相关性)相关系数,卡方值/P值,信息增益;基于模型的选择,xgboost特征重要度,randomforest的袋外误差值)
55.模型不收敛,损失震荡过大?(学习率太小(应该调大一些,曲线会平滑很多),模型过于简单不足以表达整个样本,batch_size太小随机性太大导致震荡特别大)
56.权值共享在哪里出现了?(卷积神经网络的卷积层,循环神经网络的经典rnn网络)
57.那几个框架的优化算法?
sgd,随机梯度下降,momentum(动量)
adagrad自适应,利用归一化来进行调整,但是随着时间增长分母会越来越大(梯度平方和),学习率会趋近于零,会有问题。
Adadelta进行了修正,是对某一段固定时间进行计算梯度平方和当作分母,RMSProp跟Adadelta类似,
Adam不仅利用了梯度平方和还利用了梯度和!
59.Apriori和FP-growth算法?使用第二个发现频繁项集,第一个进行关联分析
60.降维谈谈?(主要就是对内存上进行了优化。去掉了冗余的线性相关性特征,可以缓解内存的压力,但是收敛的时间和效果却是不一定会提升的。)
62.检验异常样本系统?(
可以利用DBSCAN先检测出离群点,然后对这些离群点建模打标签,其他样本点都是正常的,进行二分类即可。
可以利用K-MEANS进行聚类k=2,转化为一个监督学习的问题,在进行分类即可。
)
66.SVM为什么使用对偶函数求解?(如果直接用hign损失那么会很难求解,所以是没有直接优化损失函数的;svm实际上是先转化为拉格朗日乘子问题,在利用KKT条件转化为对偶问题进行学习的一个思路。)
68.随机森林的基分类器?(决策树,树模型的非线性能力非常强,过拟合性很强,属于高方差,低偏差的模型。)
70.决策树?(量化分类效果的方式有很多,ID3的信息增益,C4.5的信息增益率,CART的基尼系数;量化回归的方式有CART利用MSE)
71.CART树?(CART,Classification And Regression Tree,属于决策树)
73.xgboost的基分类器?(可以是树模型,也可以是线性模型)
74.决策树可以不用归一化?(
分类树:id3,c4.5,cart分类树时进行一个分类的过程,你是否归一化感觉就是没有作用。
回归树:cart回归树是对特征先进行排序然后找切分点进行二分类的,你归一化和不归一化也没有用。
归一化针对那些使用梯度下降的模型会比较好,就是同一度量单位,加快收敛。
)
75.泰勒展开说说?(就是在某一点的近似值!)
77.xgboost预防过拟合?(自带正则化项进行调参,调学习率(缩减因子),加早停,特征抽样,样本抽样(bagging的思想),或者加模型融合也是bagging思想。)
78.xgboost特征并行化怎么做的?(感觉就是针对大数据量的时候,对特征并行的找切分点,每个特征找切分点也可以使用并行(就是特征间的并行和特征内的并行))
79.xgboost的缺点?(
空间上的消耗:对特征进行排序要存储空间消耗大因为要存储值还要存储索引,
时间上的消耗:水平层次建树level-wise(基于广度优先的策略),(对当前层的所有叶子节点一视同仁都要进行分裂)有些节点没有必要分裂因为增益很小但是还是进行分裂了。)
79.xgboost和lightgbm的区别和适用场景?(
1.节点分裂:xgboost进行了层次分裂,lightgbm是选择当前所有叶子节点中增益最大的叶子节点进行分裂。
2.速度快:引入了直方图做差,只需要计算少样本的损失,然后在做差即可。
3.内存上的优化:lightgbm在原有xgboost的基础上去掉了排序功能,而直接进行直方图算法。
4.特征和样本上的优化:使用了特征的采样(样本的权重是二阶导信息),独立特征之间进行组合(值域上的独立)。
)
80.对应时间序列的数据集如何进行交叉验证?(
要保证数据的时序性,不能打乱时间!
可以对时间序列离散化,然后从离散化区间进行不放回采样的方式来进行训练和测试。比如每10天一个区间,每个区间抽一个样本当成测试集,其他样本为训练集。进行K次即可!
)
81.迁移学习的方式?(在相同的领域上,把别人训好的模型拿来进行微调,用小的学习率进行调整即可。)
83.Tensorflow的工作原理?(使用流式图进行计算,先定义好整幅图然后在session中执行图中的运算)
85.BatchNormalization的作用?(
对全连接层的输出要在进入激励层之前进行标准化处理。
把数据都拉到一个量纲下,变为一个简单的分布,在学习一个复杂的分布就更加容易,可以加快模型的收敛。
BN层有两个参数需要进行学习,自学习的一种归一化操作,还可以缓解其它层的学习压力。
ps:不加也是可以的,其他层的学习压力就会变得大一些。
ps:算是一个具有自我学习能力的归一化层。
)
88.感受野?(每层的每个元素感受的范围不同,每一个卷积层的元素的回溯到上一层对应多少尺寸(递归的过程))
89.VGG使用3*3卷积核的优势是什么?(降低参数,使用多个小卷积还能达到与大卷积相同的感受野,
ps:1*1卷积层就是对通道数进行升维和降维,而且参数量非常少不会造成过拟合)
90.激活函数的作用?(增强特征的非线性能力,自学习到更高维度和更深层次的特征。)
91.自编码器?(encoder-decoder模块,就是通过encoder模块进行特征提取,在通过decoder模块进行最终的分类即可。)
92.nlp的文本表示?(
首先是数据的预处理:分词,去停止词,进行词形统一这种。
1.基于向量空间模型的方法,词袋模型一种是基于归一化频数的(进行one-hot编码);一种是基于TF-IDF加权频率的。
2.基于神经网络的方法,word2vec模型进行文本表示。
)
93.nlp的处理方式?(
1.基于朴素贝叶斯,进行了特征之间的独立假设,进行文本分类。
2.基于主题模型的方法,通过引入主题的概念主要解决了一词多义,多词一义,解决相似度的问题,plsa和lda。
3.基于概率图模型,HMM,CRF等!(不太懂)
4.基于Rnn/Cnn模型,基于单模型有CNN、RNN、LSTM、seq2seq引入注意力机制(属于encoder-decoder模型),基于模型组合的:CNN进行特征的提取,RNN进行主要的分类效果会比单模型要好。
)
97.样本不均衡?(下采样:对样本进行一个采样。上采样:生成样本,SMOTE。代价敏感学习:在模型里对样本进行加权。
按比例分割:对比例多的样本进行比例分割与比例少的样本进行bagging。)
98.树模型的基分类器?(随机森林是决策树,gbdt和提升树是cart树,xgboost默认是cart树,也可以变为线性分类器)
99.树模型为什么对缺失值比较鲁棒?(分类树的处理方式,xgboost的处理方式)
102.xgboost+lr进行模型融合?(把连续特征和类别特征分开,利用xgboost把连续特征离散化生成新的特征(在预测那添加一个参数pred_leaf=True即可!每棵树对每个样本映射到的叶子id标为1,最后生成m*T个类别特征),再把新的特征和原始的类别特征送入lr模型中进行学习即可!)
103.xgboost和gbdt怎么控制模型复杂度?(控制早停:只要验证集在在一定时间上没有提升就停止;进行行列采样,减少学习步长,xgboost对树的分裂加了正则化;)
104.随机森林得到的特征重要度排序原理?(基于准确率来进行排序,去掉某个特征/添加噪声在进行验证。观察袋外误差的波动!)
106.评判kmeans的效果?(1.簇内误差平方和(MSE):可用样本点到各自中心点的距离在加和,进行求和寻找值下降最快和最慢的那一个k值认为这个模型效果最好,通常也是寻找K值的一种方式!2.轮廓系数(簇内相似度高,簇间相似度低):用簇内的距离和簇间的距离(a-b)/max(a,b)来衡量越大越好!(簇内距离要很小,簇间距离很大那么系数就越大))
108.kmeams为什么最后的簇中心点可以收敛?(假设服从高斯分布,kmeans就属于高斯混合模型,通过em算法进行迭代的
em算法的下界函数是可以收敛的(函数的期望>期望的函数 E(f(x))≥f(E(x))))
109.kmeans的距离度量?(曼哈顿:街区距离坐标差的绝对值和,欧式距离:二维平面点距离坐标点差的平方和在开方,余弦距离:向量内积除模的积,相对熵/kl距离:度量两个概率分布的距离)
110.极大似然估计的概念?为啥可以连乘?样本独立同分布?(让样本出现的概率最大认为样本既然能出现则出现概率就是最大符合频率学派思想,样本同时出现是连乘,是假设样本独立同分布的如果有依赖的话会出现条件概率的。)
114.隐马尔可夫模型说说?与crf(优化目标,怎么训练的)进行比较?(
HMM:属于有向图模型,属于马尔可夫序列链,当前的状态只跟前一时刻的状态有关。当前的输出只与当前时刻的状态有关,参数的学习因为有隐变量输出序列所以需要EM算法进行学习、迭代、更新。(生成式模型)
CRF:判别式无向图模型直接对条件概率进行建模利用梯度下降算法进行迭代更新。 (判别式模型)
)
118.l1和l2从贝叶斯角度来看先验分布是啥?(
使用极大后验估计来说明(属于贝叶斯学派),极大似然估计属于频率学派,MAP = MLP+先验概率(其他的计算都一样)
当先验分布是高斯分布的话属于l2正则,当先验分布是拉普拉斯分布的话属于l1正则。
)
120.啥是广义线性模型?(广义线性模型的核心体现在y服从指数族分布(包括高斯分布,伯努利分布,多项式分布,泊松分布,beta分布……))
121.为啥用余弦相似度来表征文档间相似度的距离?(余弦距离可以等价于归一化后的欧氏距离,所以未归一化不好确定上界不好度量,而归一化后方便了度量还不需要确定上界,因为就是1。)
122.说说PCA和SVD?(
PCA是给特征降维的一种算法,思想是最大化方差,并且去掉冗余信息来达到降维的过程。
可以进行特征值分解:只有一个方向上的变换,长度的变换。
ps:有一个缺陷就是在真实求协方差矩阵的时候因为有平方项可能会造成精度损失问题造成结果不稳定。
可以进行奇异值分解:对原矩阵进行了两个空间上的变换,方向变换和伸缩变换!
)
123.主题和聚类可以等同吗?(可以的,主题和簇可以等同起来就是一个文档聚集的过程,比如PLSA就是用EM算法来学习的,而KMEANS算法也是用EM算法来学习的。他们的聚集样本的过程相同,学习过程也相同。)
125说说贝叶斯网络以及构建,贝叶斯,朴素贝叶斯?(
贝叶斯公式再用来做垃圾邮件分类时,遇到了一个属性依赖性的问题导致很难去直接求解出来每个类别的概率,
所以引进了朴素贝叶斯的假设:假设所有特征全部两两独立,而且特征权重相同同等重要,看似很吊的一个假设但是效果确实不错。在一个把朴素贝叶斯进行推进我不能那样去强假设感觉总有问题,
然后引出贝叶斯网络,实际中的贝叶斯网络往往在无约束的全连接贝叶斯网络进行了优化,大大优化了计算量,然后有贝叶斯网络的独立性推导tail-tail,head-tail,head-head,
然后通过互信息来生成一颗最大权生成树来构建一个贝叶斯网络,使之实际网络和构建出来的网路相对熵距离最小!)
126.说说KL散度的理解?(两个随机变量/分布之间距离的衡量,KL散度还可以推导出交叉熵。)
127.说说PLSA和LDA?引出了gibbs采样(引出一大堆)?(
PLSA:首先是一个判别式模型,属于频率学派参数是一个固定的值没有先验值,直接使用极大似然估计进行求解,然后由于发现有一个因变量主题存在那么直接使用MLE进行处理比较麻烦,这时候就使用了em算法对参数进行更新,就是不断的通过参数求出隐变量的后验概率然后带入模型中求极大更新参数,然后在计算隐变量不断迭代的一个过程,直到参数基本收敛就停止!最终算法可求出每个文档属于K个主题的概率分布,也实现了一个降维/特征提取的一个过程 ;
LDA是一个生成式模型,属于贝叶斯学派,认为参数不是一个固定的值而是一个随机变量具有先验分布,可以理解为在PLSA上增加了一个先验分布,还解决了PLSA的一个问题产生的主题分布稀疏性不好区分的不太好,就需要一个先验分布还必须是后验概率的共轭分布是样本的共轭先验分布来制约,来保证最后产生的主题分布有一定的稀疏性,这个多项式的共轭先验分布就是隐狄里克雷分布,控制参数可以带来稀疏性效应,这种带隐变量的模型可以使用极大似然估计求但是太复杂,可以使用em算法但是也很复杂因为有先验分布,
这时就引进了gibbs采样来处理这种问题,介绍下gibbs采样,得先从马尔科夫链的状态序列的稳定分布说起,马氏链模型在t时刻的状态只与t-1时刻的状态有关,然后对这个模型会构建一个状态转移矩阵P,初始化状态序列,然后递归的去求每一时刻的状态序列,通过N次的递归计算这个状态序列一定会趋于稳定,而且趋于稳定后在这之后会一直趋于稳定,而且还得到证实趋于稳定与初始化的状态序列无关只与状态转移矩阵有关,然后引出的其实是MCMC采样,为了构造细致平稳条件(可以证明状态序列趋于平缓,任意两个状态进行转移值相等)通过引入了接受率因子来构造一个新的状态转移矩阵来保证状态序列可以是稳态(接受率是按照对称性选取的),然后利用这个接受率来决定状态转义的计算是可做的,为了加快接受率加快收敛,还进行了同比例的接受率的放大,是一个trick,但是速度还是不够,为了能让接受率都到达1,这就引出了gibbs采样,对一个维度的任意点可以证明是满足细致平稳条件的但是需要确定其他维度,因为只在这一个维度有这个结论,对每一个维度都做相同的事,一直重复直到状态序列趋于平稳,停止算法!
然后主题模型基本都是用gibbs采样做的,主要流程是:对每个词初始化一个主题,然后统计每个文档下的主题数目和每个主题下词的数量,对某个文档计算一个主题的值然后确定其他主题,每个主题重复做然后生成一个主题分布,对这个文档的某个词进行采样得到一个主题来更新这个词的主题,然后对这个主题下的一个词进行计算值要确定其他的词,每个词都重复这个过程然后就会生成一个词分布,在对这个词分布采样一个词来更新这个词!重复这样的过程直到词分布和主题分布趋于平稳,结束算法!
然后你发现没,不管是plsa还是lad都没有关注词与词之间的顺序,而是类似于一个词袋模型,不断的依靠概率去产生词,去更新词,不断的去这样做,直到模型收敛,然后整个文档就生成了!不太适合短文本建模,因为不好确立主题,比较难分辨因为信息量比较少,比如:随便根据一句话就要判断一个主题,这样做的话往往效果不好!plsa和lda最大的区别就是在生成好主题分布和词分布后plsa没有加先验知识直接通过参数进行计算采样才来生成主题和词的,而lda是给参数加入了先验概率进行稀疏性采样来生成主题和词的!)
128.怎样理解马尔科夫链?(首先它满足t时刻的状态只由t-1时刻的状态决定,然后对马尔科夫链的状态分布模型构造出一个状态转移矩阵P,计算t时刻的整个状态分布=t-1时刻的状态分布*P,然后只要一直更新状态分布最后状态分布一定会趋于稳定,而且通过递归可以发现求状态转移矩阵的次方也可以达到平稳分布,说明能否收敛跟初始的状态分布无关!只跟状态转移矩阵有关,所以马尔科夫模型最关键的就是构造好状态转移矩阵!)
129.GMM和K-Means的比较?(用EM算法来描述两个模型;两个模型都要初始化K个类别;GMM预测的是概率而Kmeans的结果是类别)
131.条件随机场和马尔科夫随机场来谈谈吧?(MCF和CRF都是无向图,因为在有向图的贝叶斯网络上要表达节点的依赖与独立性太过于复杂,在这里通过引入无向图模型来简化节点之间依赖的问题,MCF属于生成式模型先对节点的联合概率分布来进行建模在对后验概率进行建模,CRF主要关注链式模型属于判别式模型直接对条件概率进行建模,MCF引入极大团和势函数进行因子分解构建连乘来建模的,链式的CRF是通过对特征函数构建线性模型带入到指数函数里面进行一个非线性映射,并且引进了广义线性模型,是一个凸函数可以直接进行梯度下降来进行参数学习,而且说到了指数函数通过一些符号的变换之后他跟最大熵模型的softmax模型极为相似!)
133.偏差和方差?(偏差:预测值的期望减去样本值再取平方(实际值偏差预测值的程度),方差是预测值减去预测值的均值再取平方(预测值自身的偏离程度))