skelarn算法学习（一）

最新推荐文章于 2024-06-16 19:45:00 发布

皮的开心

最新推荐文章于 2024-06-16 19:45:00 发布

阅读量630

点赞数

分类专栏：学习手册文章标签： sklearn NLP 文本分类

本文链接：https://blog.csdn.net/asd2479745295/article/details/82632305

版权

本文介绍了使用Sklearn进行文本分类的学习，涵盖了TFIDF、线性分类、SVM、KNN、朴素贝叶斯和多层感知器分类器(MLPClassifier)。重点讨论了各种算法的特性和参数，适合长文本分类任务。

摘要由CSDN通过智能技术生成

Sklearn，是一个python库，专门用于机器学习的模块。包括了分类，回归，无监督，数据降维，数据预处理等常见的机器学习算法。推荐使用Anaconda，本身自带了很多常用的库，而且安装库也特别的方便。本次学习主要了为了进行长文本的分类。

5.多层感知器分类器(MLPClassifier)

0.TFIDF

个人感觉比gensim中的好用，因为有很多参数可以对数据进行处理，比如过滤词汇、归一化等等。

vec = TfidfVectorizer(ngram_range=(1, 2), min_df=5, max_df=0.6,use_idf=1,smooth_idf=1, sublinear_tf=1)
train_word_seg_vec = vec.fit_transform(train_word_seg)
test_word_seg_vec = vec.transform(test_word_seg)

参数说明：

ngram_range: tuple(min_n, max_n)

要提取的n-gram的n-values的下限和上限范围，在min_n <= n <= max_n区间的n的全部值

min_df：float in range [0.0, 1.0] or int, optional, 1.0 by default

当构建词汇表时，严格忽略低于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值，如果词汇表不为None，此参数被忽略。

max_df： float in range [0.0, 1.0] or int, optional, 1.0 by default

当构建词汇表时，严格忽略高于给出阈值的文档频率的词条，语料指定的停用词。如果是浮点值，该参数代表文档的比例，整型绝对计数值，如果词汇表不为None，此参数被忽略。

use_idf：boolean， optional