头歌——机器学习——朴素贝叶斯案例

最新推荐文章于 2024-07-30 09:45:58 发布

absths

最新推荐文章于 2024-07-30 09:45:58 发布

阅读量197

点赞数 9

分类专栏：头歌机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/absths/article/details/139836017

版权

机器学习同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

头歌

17 篇文章 0 订阅

订阅专栏

第1关：朴素贝叶斯——新闻分类

任务描述

本关任务：使用sklearn完成新闻主题分类任务。

相关知识

为了完成本关任务，你需要掌握如何使用sklearn提供的MultinomialNB类与文本向量化。

数据简介

本关使用的是20newsgroups数据集，20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了18846篇新闻组文档，均匀分为20个不同主题（比如电脑硬件、中东等主题）的新闻组集合。

sklearn为该数据集提供了接口，若想使用该数据集，代码如下：

from sklearn.datasets import fetch_20newsgroups
#加载数据集
news = fetch_20newsgroups(data_home='./', subset='all')
#X表示新闻文本，y表示标签
X = news.data
y = news.target

若想查看某一篇新闻文本，代码如下：

#打印数据集中第一篇新闻文本
print(news.data[111])

部分数据如下：

From: Mamatha Devineni Ratnam <mr47+@andrew.cmu.edu>
Subject: Pens fans reactions
Organization: Post Office, Carnegie Mellon, Pittsburgh, PA
Lines: 12
NNTP-Posting-Host: po4.andrew.cmu.edu
I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers relief with a bit of praise for the Pens. Man, they
are killing those Devils worse than I thought. Jagr just showed you why
he is much better than his regular season stats. He is also a lot
fo fun to watch in the playoffs. Bowman should let JAgr have a lot of
fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final
regular season game. PENS RULE!!!

其中新闻文本对应的主题标签，已经用0-19这20个数字表示。

文本向量化

由于数据集中每一条数据都是很长的一个字符串，所以我们需要对数据进行向量化的处理。例如，I have a apple！\n I have a pen!可能需要将该字符串转换成向量如[10, 7, 0, 1, 2, 6, 22, 100, 8]。

sklearn提供了实现词频向量化功能的CountVectorizer类。想要对数据进行向量化，代码如下：

from sklearn.feature_ext\fraction.text import CountVectorizer
#实例化向量化对象
vec = CountVectorizer()
#将训练集中的新闻向量化
X_train = vec.fit_transform(X_train)
#将测试集中的新闻向量化
X_test = vec.transform(X_test)

MultinomialNB

MultinomialNB类中的fit函数实现了朴素贝叶斯分类算法训练模型的功能，predict函数实现了法模型预测的功能。

其中fit函数的参数如下：

X：大小为[样本数量,特征数量]的ndarry，存放训练样本
Y：值为整型，大小为[样本数量]的ndarray，存放训练样本的分类标签

而predict函数有一个向量输入：

X：大小为[样本数量,特征数量]的ndarry，存放预测样本

MultinomialNB的使用代码如下：

clf = tree.MultinomialNB()
clf.fit(X_train, Y_train)
result = clf.predict(X_test)

编程要求

填写news_predict(train_sample, train_label, test_sample)函数完成鸢尾花分类任务，其中：

train_sample：原始训练样本
train_label：训练标签
test_sample：原始测试样本

第1关任务——代码题

# 从sklearn.feature_extraction.text里导入文本特征向量化模块
from sklearn.feature_extraction.text import CountVectorizer  
from sklearn.naive_bayes import MultinomialNB


def news_predict(train_sample, train_label, test_sample):
    '''
    训练模型并进行预测，返回预测结果
    :param train_sample:原始训练集中的新闻文本，类型为ndarray
    :param train_label:训练集中新闻文本对应的主题标签，类型为ndarray
    :test_sample:原始测试集中的新闻文本，类型为ndarray
    '''

    # ********* Begin *********#
      # 创建CountVectorizer对象
    vectorizer = CountVectorizer()
    # 使用fit_transform方法将训练集的文本数据转换为特征向量
    train_data = vectorizer.fit_transform(train_sample)
    # 创建MultinomialNB对象
    clf = MultinomialNB()
    # 使用fit方法训练模型
    clf.fit(train_data, train_label)
    # 使用predict方法对测试集的文本数据进行预测
    test_data = vectorizer.transform(test_sample)
    pred_label = clf.predict(test_data)
    # 返回预测结果
    return pred_label
    # ********* End *********#

absths

关注

9
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
头歌——机器学习——朴素贝叶斯案例

本关使用的是数据集，数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了18846篇新闻组文档，均匀分为20个不同主题（比如电脑硬件、中东等主题）的新闻组集合。sklearn#加载数据集#X表示新闻文本，y表示标签#打印数据集中第一篇新闻文本Lines: 12!!其中新闻文本对应的主题标签，已经用0-19这20个数字表示。
复制链接

扫一扫