除了采用困惑度来衡量LDA主题最优数外(尽管该方法具有较大的随机性,很多人还是会采用困惑度来衡量)。对主题效果还有多种衡量方法,如主题内部一致性度量、主题间距离度量等。本文代码主要是计算主题间距离度量。距离度量还是采用cosin和k-l散度两种形式。
对于两个主题Ta和Tb ,其余弦距离可以定义为:
其中,Dc 表示两个向量的余弦距离, 表示两个向量的余弦相似度。 定义形式为
j-s散度的计算公式
除了采用困惑度来衡量LDA主题最优数外(尽管该方法具有较大的随机性,很多人还是会采用困惑度来衡量)。对主题效果还有多种衡量方法,如主题内部一致性度量、主题间距离度量等。本文代码主要是计算主题间距离度量。距离度量还是采用cosin和k-l散度两种形式。
对于两个主题Ta和Tb ,其余弦距离可以定义为:
其中,Dc 表示两个向量的余弦距离, 表示两个向量的余弦相似度。 定义形式为
j-s散度的计算公式