NLP修炼之旅（Day7）

我就叫小灰灰

于 2019-04-19 21:38:14 发布

阅读量192

点赞数

文章标签： NLP

本文链接：https://blog.csdn.net/weixin_43314778/article/details/89408569

版权

pLSA、共轭先验分布

pLSA（Probabilistic Latent Senmanticing Indexing ）是Hoffman在1999年提出的基于概率的隐语义分析，之所以说是Probabilistic，是因为这个模型还加入了一个隐变量：主题Z，也正因如此，它被称为主题模型
设 $\theta$ 是总体分布中的参数（或者参数向量）, $\pi(\theta)$ 是 $\theta$ 的先验密度函数，假如由抽样信息算得的后验密度函数与 $\pi(\theta)$ 有相同的函数形式，则称 $\pi(\theta)$ 是 $\theta$ 的自然共轭先验分布

LDA主题模型原理

主题模型：每篇文档用bag-of-words模型表示，也就是每篇文档只与所包含的词有关，而不考虑这些词的先后顺序，假设文档集D有N篇文档，主题模型认为在这N篇文档中一共隐含了Z个主题，每篇文档都可能属于一个或多个主题，这可以用给定文档dd时所属的主题zz的概率分布p（z|d）表示
LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率原型，包含词、主题和文档三层结构，所以我们认为一篇文章每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到，文档到主题服从多项式分布，主题到词服从多项式分布；
LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

LDA应用场景

相似文档发现
新闻个性化推荐
自动打标签
wordRank

LDA优缺点

LDA算法既可以用来降维，又可以用来分类，但是目前来说，主要还是用于降维。

LDA算法的主要优点有：

在降维过程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。
LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。

LDA算法的主要缺点有：

LDA不适合对非高斯分布样本进行降维，PCA也有这个问题。
LDA降维最多降到类别数k-1的维数，如果我们降维的维度大于k-1，则不能使用LDA。当然目前有一些LDA的进化版算法可以绕过这个问题。
LDA在样本分类信息依赖方差而不是均值的时候，降维效果不好。
LDA可能过度拟合数据。

LDA参数学习

n_components : int, optional (default=10):主题数

doc_topic_prior : float, optional (default=None):文档主题先验Dirichlet分布θd的参数α

topic_word_prior : float, optional (default=None):主题词先验Dirichlet分布βk的参数η

learning_method : ‘batch’ | ‘online’, default=‘online’:LDA的求解算法。有 ‘batch’ 和 ‘online’两种选择

learning_decay : float, optional (default=0.7):控制"online"算法的学习率，默认是0.7

learning_offset : float, optional (default=10.):仅在算法使用"online"时有意义，取值要大于1。用来减小前面训练样本批次对最终模型的影响

max_iter : integer, optional (default=10):EM算法的最大迭代次数

batch_size : int, optional (default=128):仅在算法使用"online"时有意义，即每次EM算法迭代时使用的文档样本的数量。

evaluate_every : int, optional (default=0):多久评估一次perplexity。仅用于fit方法。将其设置为0或负数以不评估perplexity训练。

total_samples : int, optional (default=1e6):仅在算法使用"online"时有意义，即分步训练时每一批文档样本的数量。在使用partial_fit函数时需要。

perp_tol : float, optional (default=1e-1):batch的perplexity容忍度。

mean_change_tol : float, optional (default=1e-3):即E步更新变分参数的阈值，所有变分参数更新小于阈值则E步结束，转入M步。

max_doc_update_iter : int (default=100):即E步更新变分参数的最大迭代次数，如果E步迭代次数达到阈值，则转入M步。

n_jobs : int, optional (default=1):在E步中使用的资源数量。如果为-1，则使用所有CPU。

使用LDA生成主题特征，在之前特征的基础上加入主题特征进行文本分类

def get_stop_words():
    with open("../data/stopwords/中文停用词表.txt", encoding="utf-8") as file:
        stopwords_lines = file.readlines()
    stopwords = [line.strip() for line in stopwords_lines]
    return stopwords


def get_data():
    with open("../data/cnews/cnews.train.txt", encoding='utf-8') as data:
        lines = data.readlines()
    train_data = {" ".join(jieba.cut(line[2:].strip())): line[0:2] for line in lines}  # 将训练集分词，并与其label数据存入字典
    train_x = train_data.keys()
    train_y = train_data.values()
    return train_x, train_y


def main():
    x, y = get_data()
    train_x, test_x, train_y, test_y = train_test_split(x, y, test_size=0.5)
    stopwords = get_stop_words()

    train_tf = TfidfVectorizer(stop_words=stopwords, max_df=0.5)
    train_x = train_tf.fit_transform(train_x)

    clf = LatentDirichletAllocation(n_topics=14, 
                                max_iter=50,
                                learning_method='batch')
    clf.fit(train_x, train_y)

    test_tf = TfidfVectorizer(stop_words=stopwords, max_df=0.5, vocabulary=train_tf.vocabulary_)
    test_x = test_tf.fit_transform(test_x)

    predicted_y = clf.predict(test_x)
    score = accuracy_score(test_y, predicted_y)
    print(score)


if __name__ == '__main__':
    main()

我就叫小灰灰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP修炼之旅（Day7）

pLSA、共轭先验分布pLSA（Probabilistic Latent Senmanticing Indexing ）是Hoffman在1999年提出的基于概率的隐语义分析，之所以说是Probabilistic，是因为这个模型还加入了一个隐变量：主题Z，也正因如此，它被称为主题模型设θ\thetaθ是总体分布中的参数（或者参数向量）,π(θ)\pi(\theta)π(θ)是θ\thetaθ...
复制链接

扫一扫