头歌——机器、深度学习——新闻文本主题分类

absths

已于 2024-06-21 17:51:07 修改

阅读量1k

点赞数 11

分类专栏：机器学习深度学习头歌文章标签：机器学习深度学习人工智能

于 2024-06-19 17:47:50 首次发布

本文链接：https://blog.csdn.net/absths/article/details/139808791

版权

机器学习同时被 3 个专栏收录

18 篇文章 0 订阅

订阅专栏

头歌

17 篇文章 0 订阅

订阅专栏

深度学习

11 篇文章 0 订阅

订阅专栏

第1关：条件概率

任务描述

本关任务：根据本节课所学知识完成本关所设置的选择题。

	甲厂	乙厂	合计
合格品	475	644	1119
次品	25	56	81
合计	500	700	1200

第1关任务——选择题

1、P(AB)表示的是事件A与事件B同时发生的概率，P(A|B)表示的是事件B已经发生的条件下，事件A发生的概率。
A、对           答案：(A)
B、错

2、从1,2,...,15中小明和小红两人各任取一个数字，现已知小明取到的数字是5的倍数，请问小明取到的数大于小红取到的数的概率是多少？    
A、7/14         答案：（C）
B、8/14
C、9/14
D、10/14

第2关：贝叶斯公式

任务描述

本关任务：根据本节课所学知识完成本关所设置的选择题。

L1	L2	L3
0.5	0.3	0.2

L1不堵车	L2不堵车	L3不堵车
0.2	0.4	0.7

第2关任务——选择题

1、对以往数据分析结果表明，当机器调整得良好时，产品的合格率为98%，而当机器发生某种故障时，产品的合格率为55%。每天早上机器开动时，机器调整得良好的概率为95%。计算已知某日早上第一件产品是合格时，机器调整得良好的概率是多少？
A、0.94         答案：（D）
B、0.95
C、0.96
D、0.97

2、一批产品共8件，其中正品6件，次品2件。现不放回地从中取产品两次，每次一件，求第二次取得正品的概率。
A、1/4          答案：（C）
B、1/2
C、3/4
D、1

第3关：朴素贝叶斯分类算法流程

任务描述

本关任务:填写python代码，完成fit与predict函数，分别实现模型的训练与预测。

颜色	声音	纹理	是否为好瓜
绿	清脆	清晰	？

编号	颜色	声音	纹理	是否为好瓜
1	绿	清脆	清晰	是
2	黄	浑厚	模糊	否
3	绿	浑厚	模糊	是
4	绿	清脆	清晰	是
5	黄	浑厚	模糊	是
6	绿	清脆	清晰	否

颜色	声音	纹理	是否为好瓜
绿	清脆	清晰	？

编程要求

根据提示，完成fit与predict函数，分别实现模型的训练与预测。（PS:在fit函数中需要将预测时需要的概率保存到self.label_prob和self.condition_prob这两个变量中）

其中fit函数参数解释如下：

feature：训练集数据，类型为ndarray；

label：训练集标签，类型为ndarray；

return：无返回。

predict函数参数解释如下：

feature：测试数据集所有特征组成的ndarray。（PS：feature中有多条数据）；

return：模型预测的结果。（**PS：feature中有多少条数据，就需要返回长度为多少的list或者ndarry**）。

测试说明

部分训练数据如下**(PS:数据以ndarray的方式存储，不包含表头。其中颜色这一列用1表示绿色，2表示黄色；声音这一列用1表示清脆，2表示浑厚。纹理这一列用1表示清晰，2表示模糊，3表示一般)**：

颜色	声音	纹理	是否为好瓜
2	1	1	1
1	2	2	0
2	2	2	1
2	1	2	1
1	2	3	1
2	1	1	0

只需完成fit与predict函数即可，程序内部会调用您所完成的fit函数构建模型并调用predict函数来对数据进行预测。预测的准确率高于0.8视为过关。

第3关任务——代码题

import numpy as np


class NaiveBayesClassifier(object):
    def __init__(self):
        self.label_prob = {}
        self.condition_prob = {}

    def fit(self, feature, label):
        #********* Begin *********#
        row_num = len(feature)
        col_num = len(feature[0])
        for c in label:
            if c in self.label_prob:
                self.label_prob[c] += 1
            else:
                self.label_prob[c] = 1

        for key in self.label_prob.keys():
            # 计算每种类别在数据集中出现的概率
            self.label_prob[key] /= row_num
            # 构建self.condition_prob中的key
            self.condition_prob[key] = {}
            for i in range(col_num):
                self.condition_prob[key][i] = {}
                for k in np.unique(feature[:, i], axis=0):
                    self.condition_prob[key][i][k] = 0

        for i in range(len(feature)):
            for j in range(len(feature[i])):
                if feature[i][j] in self.condition_prob[label[i]]:
                    self.condition_prob[label[i]][j][feature[i][j]] += 1
                else:
                    self.condition_prob[label[i]][j][feature[i][j]] = 1

        for label_key in self.condition_prob.keys():
            for k in self.condition_prob[label_key].keys():
                total = 0
                for v in self.condition_prob[label_key][k].values():
                    total += v
                for kk in self.condition_prob[label_key][k].keys():
                    #计算每种类别确定的条件下各个特征出现的概率
                    self.condition_prob[label_key][k][kk] /= total
        #********* End *********#


    def predict(self, feature):
        # ********* Begin *********#
        result = []
        #对每条测试数据都进行预测
        for i, f in enumerate(feature):
            #可能的类别的概率
            prob = np.zeros(len(self.label_prob.keys()))
            ii = 0
            for label, label_prob in self.label_prob.items():
                #计算概率
                prob[ii] = label_prob
                for j in range(len(feature[0])):
                    prob[ii] *= self.condition_prob[label][j][f[j]]
                ii += 1
            #取概率最大的类别作为结果
            result.append(list(self.label_prob.keys())[np.argmax(prob)])
        return np.array(result)
        #********* End *********#

第4关：拉普拉斯平滑

任务描述

本关任务：填写python代码，完成fit函数，实现模型训练功能。**(PS:fit函数中没有平滑处理的话是过不了关的哦)**

编号	颜色	声音	纹理	是否为好瓜
1	绿	清脆	清晰	是
2	黄	浑厚	清晰	否
3	绿	浑厚	模糊	是
4	绿	清脆	清晰	是
5	黄	浑厚	模糊	是
6	绿	清脆	清晰	否

编程要求

根据提示，完成fit函数，实现模型的训练功能。（PS:在fit函数中需要将预测时需要的概率保存到self.label_prob和self.condition_prob这两个变量中）

其中fit函数参数解释如下：

feature：训练集数据，类型为ndarray；
label：训练集标签，类型为ndarray；
return：无返回。

测试说明

颜色	声音	纹理	是否为好瓜
2	1	1	1
1	2	2	0
2	2	2	1
2	1	2	1
1	2	3	1
2	1	2	0

只需完成fit函数即可，程序内部会调用您所完成的fit函数构建模型并进行预测。预测的准确率高于0.9视为过关。

第4关任务——代码题

import numpy as np

class NaiveBayesClassifier(object):
    def __init__(self):
        self.label_prob = {}
        self.condition_prob = {}

    def fit(self, feature, label):
        #********* Begin *********#
        row_num = len(feature)
        col_num = len(feature[0])
        unique_label_count = len(set(label))

        for c in label:
            if c in self.label_prob:
                self.label_prob[c] += 1
            else:
                self.label_prob[c] = 1

        for key in self.label_prob.keys():
            # 计算每种类别在数据集中出现的概率，拉普拉斯平滑
            self.label_prob[key] += 1
            self.label_prob[key] /= (unique_label_count+row_num)

            # 构建self.condition_prob中的key
            self.condition_prob[key] = {}
            for i in range(col_num):
                self.condition_prob[key][i] = {}
                for k in np.unique(feature[:, i], axis=0):
                    self.condition_prob[key][i][k] = 1


        for i in range(len(feature)):
            for j in range(len(feature[i])):
                if feature[i][j] in self.condition_prob[label[i]]:
                    self.condition_prob[label[i]][j][feature[i][j]] += 1

        for label_key in self.condition_prob.keys():
            for k in self.condition_prob[label_key].keys():
                #拉普拉斯平滑
                total = len(self.condition_prob[label_key].keys())
                for v in self.condition_prob[label_key][k].values():
                    total += v
                for kk in self.condition_prob[label_key][k].keys():
                    # 计算每种类别确定的条件下各个特征出现的概率
                    self.condition_prob[label_key][k][kk] /= total
        #********* End *********#


    def predict(self, feature):
        result = []
        # 对每条测试数据都进行预测
        for i, f in enumerate(feature):
            # 可能的类别的概率
            prob = np.zeros(len(self.label_prob.keys()))
            ii = 0
            for label, label_prob in self.label_prob.items():
                # 计算概率
                prob[ii] = label_prob
                for j in range(len(feature[0])):
                    prob[ii] *= self.condition_prob[label][j][f[j]]
                ii += 1
            # 取概率最大的类别作为结果
            result.append(list(self.label_prob.keys())[np.argmax(prob)])
        return np.array(result)

第5关：新闻文本主题分类

任务描述

本关任务：使用sklearn完成新闻文本主题分类任务。

编程要求

填写news_predict(train_sample, train_label, test_sample)函数完成新闻文本主题分类任务，其中：

train_sample：原始训练样本，类型为ndarray；

train_label：训练标签，类型为ndarray；

test_sample：原始测试样本，类型为ndarray。

测试说明

只需返回预测结果即可，程序内部会检测您的代码，预测正确率高于0.8视为过关。

第5关任务——代码题

# 从sklearn.feature_extraction.text里导入文本特征向量化模块
from sklearn.feature_extraction.text import CountVectorizer  

from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer


def news_predict(train_sample, train_label, test_sample):
    # ********* Begin *********#
    vec = CountVectorizer()
    train_sample = vec.fit_transform(train_sample)
    test_sample = vec.transform(test_sample)
    tfidf = TfidfTransformer()
    train_sample = tfidf.fit_transform(train_sample)
    test_sample = tfidf.transform(test_sample)
    mnb = MultinomialNB(alpha=0.01)  # 使用默认配置初始化朴素贝叶斯
    mnb.fit(train_sample, train_label)  # 利用训练数据对模型参数进行估计
    predict = mnb.predict(test_sample)  # 对参数进行预测
    return predict
    # ********* End *********#