李航《统计学习方法》第四章——用Python实现朴素贝叶斯分类器(MNIST数据集)

相关文章:

个人认为朴素贝叶斯比较适合特征维度较小的情况,但是MNIST数据已到达上百唯的特征,概率联乘起来超过Python float能表示的极限,因此需要一些trick来保证精度。

朴素贝叶斯

按照传统不详述该算法,具体内容可以看《统计学习方法》第四章。

这里只将书中算法贴出来
这里写图片描述

朴素贝叶斯认为所有特征都是独立的,然后得出一个样本出现的概率使其所有特征出现概率的联乘。

数据集

数据集没什么可以说的,和感知器模型那个博文用的是同样的数据集。

但这次我们可以多分类,因此用原始训练数据即可
数据地址:https://github.com/WenDesi/lihang_book_algorithm/blob/master/data/train.csv

特征

将整个图片作为特征

代码

这里要说明一下,由于Python 浮点数精度的原因,784个浮点数联乘后结果变为Inf,而Python中int可以无限相乘的,因此可以利用python int的特性对先验概率与条件概率进行一些改造。

先验概率: 由于先验概率分母都是N,因此不用除于N,直接用分子即可。
条件概率: 条件概率公式如下图所示,我们得到概率后再乘以10000,将概率映射到[0,10000]中,但是为防止出现概率值为0的情况,人为的加上1,使概率映射到[1,10001]中。

代码已放到Github

#encoding=utf-8

import pandas as pd
import numpy as np
import cv2
import random
import time

from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score

# 二值化
def binaryzation(img):
    cv_img = img.astype(np.uint8)
    cv2.threshold(cv_img,50,1,cv2.cv.CV_THRESH_BINARY_INV,cv_img)
    return cv_img

def Train(trainset,train_labels):
    prior_probability = np.zeros(class_num)                         # 先验概率
    conditional_probability = np.zeros((class_num,feature_len,2))   # 条件概率

    # 计算先验概率及条件概率
    for i in range(len(train_labels)):
        img = binaryzation(trainset[i])     # 图片二值化
        label = train_labels[i]

        prior_probability[label] += 1

        for j in range(feature_len):
            conditional_probability[label][j][img[j]] += 1

    # 将概率归到[1.10001]
    for i in range(class_num):
        for j in range(feature_len):

            # 经过二值化后图像只有0,1两种取值
            pix_0 = conditional_probability[i][j][0]
            pix_1 = conditional_probability[i][j][1]

            # 计算0,1像素点对应的条件概率
            probalility_0 = (float(pix_0)/float(pix_0+pix_1))*1000000 + 1
            probalility_1 = (float(pix_1)/float(pix_0+pix_1))*1000000 + 1

            conditional_probability[i][j][0] = probalility_0
            conditional_probability[i][j][1] = probalility_1

    return prior_probability,conditional_probability

# 计算概率
def calculate_probability(img,label):
    probability = int(prior_probability[label])

    for i in range(len(img)):
        probability *= int(conditional_probability[label][i][img[i]])

    return probability

def Predict(testset,prior_probability,conditional_probability):
    predict = []

    for img in testset:

        # 图像二值化
        img = binaryzation(img)

        max_label = 0
        max_probability = calculate_probability(img,0)

        for j in range(1,10):
            probability = calculate_probability(img,j)

            if max_probability < probability:
                max_label = j
                max_probability = probability

        predict.append(max_label)

    return np.array(predict)


class_num = 10
feature_len = 784

if __name__ == '__main__':

    print 'Start read data'

    time_1 = time.time()

    raw_data = pd.read_csv('../data/train.csv',header=0)
    data = raw_data.values

    imgs = data[0::,1::]
    labels = data[::,0]

    # 选取 2/3 数据作为训练集, 1/3 数据作为测试集
    train_features, test_features, train_labels, test_labels = train_test_split(imgs, labels, test_size=0.33, random_state=23323)
    # print train_features.shape
    # print train_features.shape

    time_2 = time.time()
    print 'read data cost ',time_2 - time_1,' second','\n'

    print 'Start training'
    prior_probability,conditional_probability = Train(train_features,train_labels)
    time_3 = time.time()
    print 'training cost ',time_3 - time_2,' second','\n'

    print 'Start predicting'
    test_predict = Predict(test_features,prior_probability,conditional_probability)
    time_4 = time.time()
    print 'predicting cost ',time_4 - time_3,' second','\n'

    score = accuracy_score(test_labels,test_predict)
    print "The accruacy socre is ", score

运行结果如下所示
这里写图片描述

效果挺一般的,只有83%左右,比不上KNN,但运行时间要比KNN快的多

  • 11
    点赞
  • 81
    收藏
    觉得还不错? 一键收藏
  • 20
    评论
第四章李航统计学习方法(第二版)详细介绍了朴素叶斯算法以及其编程实现朴素叶斯算法是基于叶斯定理和特征条件独立假设的分类算法。它通过计算给定类别的先验概率和各个特征的条件概率来进行分类。 在编程实现朴素叶斯算法的过程中,我们可以使用Python语言和sklearn模块来简化实现过程。sklearn是Python中一个非常常用的机学习库,其中包含了很多经典的机学习算法和常用的工具函数。 具体实现朴素叶斯算法可以分为以下几个步骤: 1. 引入相应的库和模块: ```python from sklearn.naive_bayes import GaussianNB ``` 2. 创建一个朴素叶斯分类对象: ```python clf = GaussianNB() ``` 3. 准备训练数据和标签: ```python X_train = [[方法1特征1, 方法1特征2, ...], [方法2特征1, 方法2特征2, ...], ...] y_train = [标签1, 标签2, ...] ``` 4. 训练模型: ```python clf.fit(X_train, y_train) ``` 5. 准备测试数据: ```python X_test = [[方法3特征1, 方法3特征2, ...], [方法4特征1, 方法4特征2, ...], ...] ``` 6. 进行预测: ```python y_pred = clf.predict(X_test) ``` 这样就可以使用sklearn中的朴素叶斯算法模块来实现分类任务。实际上,sklearn还提供了多个不同的朴素叶斯算法的实现,如高斯朴素叶斯算法(GaussianNB)、多项式朴素叶斯算法(MultinomialNB)和伯努利朴素叶斯算法(BernoulliNB)等。 总之,通过使用sklearn模块来调用朴素叶斯算法,可以方便地实现并应用该算法进行分类任务,并且能够根据需要选择不同的朴素叶斯算法模型。建议阅读第四章李航统计学习方法(第二版)来更加深入地理解朴素叶斯算法的原理和实现细节。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 20
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值