A. 写出具体贝叶斯网络的联合概率分布;(也许用得上课上的3种式子)
B. 写出具体马尔科夫网络(无向边)的联合概率分布??
C. 最大熵模型的原理??
D.
生成式模型:P(Y|X) = P(X,Y)/P(X), 即对P(X,Y)建模,曲线救国;(朴素贝叶斯,贝叶斯网络,pLSA,LDA,隐马尔科夫模型)
判别式模型:直接对P(Y|X)建模;(最大熵模型,条件随机场CRF)
E. 隐马尔科夫模型
分词的例子:每个字是<B,E,M,S>四种隐状态之一;如果已经标注好了隐状态们,则直接用频率法求3组参数即可;如果没有标注,则要用Baum-Welch(本质是EM算法)迭代求解;
F. 最大熵模型的标注偏置??
G.
pLSA: 频率派:每个文档的主题分布,每个主题的词分布,都是固定的(有点像隐变量);最大化"p(w|模型)连乘",也就是极大似然法,用EM算法可求解;
LDA: 贝叶斯学派:每个文档的主题分布,每个主题的词分布,是从狄利克雷分布中采样得到的;(全局只采样一轮);随着吉布斯采样的结束,每个词对应的主题得到了,则有了新的观测信息,以上两种分布的后验概率分布也在先验分布的基础上发生很大偏移;
H. LDA中,主题K的个数如何确定:
多试一些K,根据在验证集上的效果来判断;
判定标准:困惑度,或者直接用似然函数;
I. 推荐系统冷启动:
用户冷启动,物品冷启动,系统冷启动;
用户冷启动为例:用户对应原先的文档,用户的一堆特征对应原先的词,用LDA训练得到每个用户的主题向量;新用户来了找和他主题向量最相似的那些向量们对应的用户,把那些用户点击/购买过的东西推荐给他;