文本分类任务的基础实现（三）——机器学习部分——特征提取_tf特征+LDA特征原理介绍

最新推荐文章于 2024-03-02 19:06:33 发布

九点澡堂子

最新推荐文章于 2024-03-02 19:06:33 发布

阅读量2.6k

点赞数 2

分类专栏： NLP sklearn 特征提取机器学习文本处理文章标签： sklearn CountVectorizer LatentDirichletAllocation 文本处理特征提取

本文链接：https://blog.csdn.net/weixin_38278334/article/details/82684892

版权

机器学习同时被 3 个专栏收录

20 篇文章 14 订阅

订阅专栏

NLP

11 篇文章 2 订阅

订阅专栏

sklearn

10 篇文章 15 订阅

订阅专栏

本文介绍前文用到的特征提取方法的原理介绍。

tf特征+LDA特征

1. tf特征(term frequency词频特征)

将原始数据数字化为tf特征

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(ngram_range=(1, 2), min_df=100, max_df=0.8)
vectorizer.fit(df_all['word_seg'])
x_train = vectorizer.transform(df_train['word_seg'])
x_test = vectorizer.transform(df_test['word_seg'])

CountVectorizer() [词频统计把文本特征处理成数字向量]

CountVectorizer只考虑每种词汇在该训练文本中出现的频率该步骤得到的tf矩阵为一个“文章-词语”稀疏矩阵

算法介绍：

Countvectorizer和Countvectorizer model旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer可作为Estimator来提取词汇，并生成一个Countvectorizer model。

该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法如LDA。

CountVectorizer 类会将文档全部转换成小写，然后将文档词块化(tokenize).文档词块化是把句子分割成词块（token）或有意义的字母序列的过程。

在fitting过程中，countvectorizer将根据语料库中的词频排序选出前vocabsize个词。一个可选的参数min_df也影响fitting过程中，它指定词汇表中的词语在文档中最少出现的次数。另一个可选的二值参数控制输出向量，如果设置为真那么所有非零的计数为1。这对于二值型离散概率模型非常有用。

2. LDA特征

tf特征——>LDA特征
LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。
所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。
LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。
LDA模型学习时的训练数据并不是一篇篇文本，而是Document-word matrix，它可以是array也可以是稀疏矩阵，维数是n_samples*n_features，其中n_features为词(term)的个数。因此在训练LDA主题模型前，需要先利用CountVectorizer统计词频并保存。

1 tf特征加载
from sklearn.decomposition import LatentDirichletAllocation

tf_path = './tf_select_LSVC_l2644235.pkl'
f_tf = open(tf_path, 'rb')
x_train, y_train, x_test = pickle.load(f_tf)
f_tf.close()

2 特征降维：lda

print("lda......")
lda = LatentDirichletAllocation(n_components=200)
x_train = lda.fit_transform(x_train)
x_test = lda.transform(x_test)

LatentDirichletAllocation类的主要输入参数:

1) n_topics: 即我们的隐含主题数KK,需要调参。KK的大小取决于我们对主题划分的需求，比如我们只需要类似区分是动物，植物，还是非生物这样的粗粒度需求，那么KK值可以取的很小，个位数即可。如果我们的目标是类似区分不同的动物以及不同的植物，不同的非生物这样的细粒度需求，则KK值需要取的很大，比如上千上万。此时要求我们的训练文档数量要非常的多。

2) doc_topic_prior:即我们的文档主题先验Dirichlet分布θdθd的参数αα。一般如果我们没有主题分布的先验知识，可以使用默认值1/K1/K。

3) topic_word_prior:即我们的主题词先验Dirichlet分布βkβk的参数ηη。一般如果我们没有主题分布的先验知识，可以使用默认值1/K1/K。

4) learning_method: 即LDA的求解算法。有 ‘batch’ 和 ‘online’两种选择。 ‘batch’即我们在原理篇讲的变分推断EM算法，而”online”即在线变分推断EM算法，在”batch”的基础上引入了分步训练，将训练样本分批，逐步一批批的用样本更新主题词分布的算法。默认是”online”。选择了‘online’则我们可以在训练时使用partial_fit函数分布训练。不过在scikit-learn 0.20版本中默认算法会改回到”batch”。建议样本量不大只是用来学习的话用”batch”比较好，这样可以少很多参数要调。而样本太多太大的话，”online”则是首先了。

5）learning_decay：仅仅在算法使用”online”时有意义，取值最好在(0.5, 1.0]，以保证”online”算法渐进的收敛。主要控制”online”算法的学习率，默认是0.7。一般不用修改这个参数。

6）learning_offset：仅仅在算法使用”online”时有意义，取值要大于1。用来减小前面训练样本批次对最终模型的影响。

7） max_iter ：EM算法的最大迭代次数。

8）total_samples：仅仅在算法使用”online”时有意义，即分步训练时每一批文档样本的数量。在使用partial_fit函数时需要。

9）batch_size: 仅仅在算法使用”online”时有意义，即每次EM算法迭代时使用的文档样本的数量。

10）mean_change_tol :即E步更新变分参数的阈值，所有变分参数更新小于阈值则E步结束，转入M步。一般不用修改默认值。

11） max_doc_update_iter: 即E步更新变分参数的最大迭代次数，如果E步迭代次数达到阈值，则转入M步。

从上面可以看出，如果learning_method使用”batch”算法，则需要注意的参数较少，则如果使用”online”,则需要注意”learning_decay”, “learning_offset”，“total_samples”
和“batch_size”等参数。无论是”batch”还是”online”, n_topics(KK), doc_topic_prior(αα), topic_word_prior(ηη)都要注意。如果没有先验知识，则主要关注与主题数KK。可以说，主题数KK是LDA主题模型最重要的超参数。