文本分类器设计

最新推荐文章于 2022-12-06 16:17:16 发布

AI专家

最新推荐文章于 2022-12-06 16:17:16 发布

阅读量1.5k

点赞数

分类专栏：机器之心机器学习文章标签：文本分类器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42039090/article/details/80628293

版权

机器学习同时被 2 个专栏收录

78 篇文章 15 订阅

订阅专栏

39 篇文章 10 订阅

订阅专栏

文本分类的目的是将文本文档分为不同的类，这是NLP中非常重要的分析手段。这里将使用一种技术，它基于一种叫作tf-idf的统计数据，它表示词频-逆文档频率（term frequency—inversedocument frequency）。这个统计工具有助于理解一个单词在一组文档中对某一个文档的重要性。它可以作为特征向量来做文档分类。

实际上就是利用现有数据或者已有模型来预测输入的文档的类别。

分为以下几个基本步骤：
（１）先期要人工进行定义，当然，实际中，结合着机器算法共同完成效果更佳。类别定义，可以用词典映射的方式进行，这些类型我们以新闻组数据集为例。

　category_map ={'misc.forsale': 'Sales', 'rec.motorcycles': 'Motorcycles','rec.sport.baseball':'Baseball', 'sci.crypt': 'Cryptography','sci.space': 'Space'}

（２）基于这种定义类型，进行训练数据的加载。

　　training_data =fetch_20newsgroups(subset='train', categories=category_map.keys(),

shuffle=True, random_state=7)

（３）导入特征提取器，然后进行特征提取。我们直接加载sklearn中CountVectorizer特征提取器。

from sklearn.feature_extraction.textimport CountVectorizer

vectorizer = CountVectorizer()

X_train_termcounts =vectorizer.fit_transform(training_data.data)

（4）利用分类器，这里选择多项式朴素贝叶斯（Multinomial Naive Bayes）分类器进行分类，且利用tfidfTransformer先进行特征向量转换，然后再根据这个向量再进行分类。

from sklearn.naive_bayes importMultinomialNB

from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer = TfidfTransformer()

X_train_tfidf = tfidf_transformer.fit_transform(X_train_ termcounts)

利用tf-idf变换器定义对象，并对步骤（3）得到的特征向量进行tf-idf转换，然后利用多项式朴素贝叶斯分类器进行训练分类。

classifier = MultinomialNB().fit(X_train_tfidf, training_data.target)

（5）到这，训练完毕，输入数据可以进行分类预测了。

首先，用词频统计转换输入数据：

X_input_termcounts = vectorizer.transform(input_data)

然后，用tf-idf变换器变换输入数据：

X_input_tfidf = tfidf_transformer.transform(X_input_termcounts)

最后，用训练过的分类器来对输入数据的tfidf向量进行预测，也即就是对输入句子进行输出类型预测：

# 预测输出类型

predicted_categories = classifier.predict(X_input_tfidf)

（6）结果输出：

for sentence, category in zip(input_data, predicted_categories):

print ('\nInput:', sentence,'\nPredicted category:', category_map[training_data\

.target_names[category]])

当然，需要导入包：fromsklearn.datasets import fetch_20newsgroups，这个数据集中包括训练集和测试集，共20个新闻组，感兴趣的读者，可以利用下面的代码读取数据集。

from sklearn.datasets importfetch_20newsgroups

newsgroups_train =fetch_20newsgroups(subset='train')

newsgroups_test =fetch_20newsgroups(subset='test')

print (len(newsgroups_train.data))

print (len(newsgroups_test.data))

news =fetch_20newsgroups(subset='all')

print (len(news.data))

这个功能比较简单，以后有时间，我们将设计一款实用型分类器。大家，加油！

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
文本分类器设计

文本分类的目的是将文本文档分为不同的类，这是NLP中非常重要的分析手段。这里将使用一种技术，它基于一种叫作tf-idf的统计数据，它表示词频逆文档频率（term frequency—inversedocument frequency）。这个统计工具有助于理解一个单词在一组文档中对某一个文档的重要性。它可以作为特征向量来做文档分类。实际上就是利用现有数据或者已有模型来预测输入的文档的类别...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。