机器学习中的朴素贝叶斯算法：原理与实战

Sample	颜值	身材	性格	收入	学历	是否交往
1	1	0	1	1	1	1
2	1	1	0	0	0	0
3	1	1	1	1	1	1
4	1	0	1	0	1	0
5	1	1	0	1	0	0
6	0	1	0	1	1	0
7	1	1	0	0	0	0
8	1	0	1	1	1	1
9	0	0	1	1	1	0
10	1	1	1	1	1	1
11	1	0	1	0	0	0
12	0	0	1	1	1	0
13	1	1	1	1	1	1
14	1	0	1	1	1	1
15	1	1	1	1	1	1

前五个属性 1代表高水平，0反之；标签 1 代表交往，0代表不交往

def IOdatabases():
    dataset=[[1,0,1,1,1,1],
             [1,1,0,0,0,0],
             [1,1,1,1,1,1],
             [1,0,1,0,1,0],
             [1,1,0,1,0,0],
             [0,1,0,1,1,0],
             [1,1,0,0,0,0],
             [1,0,1,1,1,1],
             [0,0,1,1,1,0],
             [1,1,1,1,1,1],
             [1,0,1,0,0,0],
             [0,0,1,1,1,0],
             [1,1,1,0,1,1],
             [1,0,1,1,1,1],
             [1,1,1,1,1,1]
    ]
    label=['颜值','身材','性格','收入','学历','交往'] #前五个属性 1代表高水平，0反之；标签 1 代表交往，0代表不交往
    #测试集
    testdata=[1,1,0,1,1]
    return dataset,label,testdata

2.计算先验概率

def calculate_prior_probabilities(dataset, target_label_index):
    """
    计算先验概率 P(C_k)
    """
    class_counts = {}
    total_samples = len(dataset)
    for sample in dataset:
        class_label = sample[target_label_index]
        if class_label not in class_counts:
            class_counts[class_label] = 0
        class_counts[class_label] += 1
    prior_probs = {k: v / total_samples for k, v in class_counts.items()}
    return prior_probs

计算结果：

先验概率 :
P(C=交往) = 0.4666666666666667
P(C=不交往) = 0.5333333333333333

3.计算条件概率

def calculate_conditional_probabilities(dataset, target_label, feature_index, feature_values):
    """
    计算类条件概率 P(x_i|C_k)
    """
    class_samples = [sample for sample in dataset if sample[-1] == target_label]
    num_samples = len(class_samples)
    probabilities = {}
    for feature_value in feature_values:
        count = sum(1 for sample in class_samples if sample[feature_index] == feature_value)
        # 防止除零错误，添加平滑项（例如拉普拉斯平滑）
        probabilities[feature_value] = (count + 1) / (num_samples + len(feature_values))
    return probabilities

计算结果：

对于类别 不交往，条件概率 P(x_i|C=0):
P(x_0=1|C=0) = 0.6
P(x_1=1|C=0) = 0.5
P(x_2=0|C=0) = 0.5
P(x_3=1|C=0) = 0.5
P(x_4=1|C=0) = 0.5
对于类别 交往，条件概率 P(x_i|C=1):
P(x_0=1|C=1) = 0.8888888888888888
P(x_1=1|C=1) = 0.5555555555555556
P(x_2=0|C=1) = 0.1111111111111111
P(x_3=1|C=1) = 0.7777777777777778
P(x_4=1|C=1) = 0.8888888888888888

4.计算后验概率

def predict_naive_bayes(dataset, target_label_index, testdata):
    """
    使用朴素贝叶斯分类器进行预测，并打印先验概率、条件概率和后验概率
    """
    # 提取特征值和标签
    feature_values = set([sample[i] for sample in dataset for i in range(len(sample) - 1)])
    labels_set = set([sample[target_label_index] for sample in dataset])

    # 计算先验概率
    prior_probs = calculate_prior_probabilities(dataset, target_label_index)
    print("先验概率 :")
    for class_label, prob in prior_probs.items():
        if class_label == 1: label = '交往'
        if class_label == 0: label = '不交往'
        print(f"P(C={label}) = {prob}")

        # 初始化预测概率为负无穷
    max_posterior_prob = float('-inf')
    predicted_class = None

    # 遍历所有类别
    for class_label in labels_set:
        # 计算先验概率（这里已计算过，但为了保持流程清晰，再次取出）
        prior_prob = prior_probs[class_label]

        # 计算类条件概率的乘积
        posterior_prob = prior_prob
        conditional_probs = {}
        for i, feature_value in enumerate(testdata):
            # 计算条件概率
            probs = calculate_conditional_probabilities(dataset, class_label, i, feature_values)
            conditional_probs[i] = probs[feature_value]
            posterior_prob *= probs[feature_value]

            # 打印条件概率
        if class_label == 1: label = '交往'
        if class_label == 0: label = '不交往'
        print(f"对于类别 {label}，条件概率 P(x_i|C={class_label}):")
        for feature_index, prob in conditional_probs.items():
            print(f"P(x_{feature_index}={testdata[feature_index]}|C={class_label}) = {prob}")

            # 打印后验概率（仅打印当前类别，不比较大小）
        print(f"后验概率 P(C={class_label}|x) = {posterior_prob}")

        # 更新最大后验概率和预测类别（实际比较在循环结束后进行）
        if posterior_prob > max_posterior_prob:
            max_posterior_prob = posterior_prob
            predicted_class = class_label

            # 打印预测结果
    if predicted_class==1 : predicted_result='交往'
    if predicted_class == 0: predicted_result = '不交往'
    print(f"预测结果为：类别 {predicted_result}")

    return predicted_class

计算结果：

后验概率 P(C=0|x) = 0.02
后验概率 P(C=1|x) = 0.017702811789079124

5.预测结果分析

因为P(C=0|x) = 0.02 > P(C=1|x) = 0.017702811789079124，所以预测结果为不交往

6.完整代码

import  numpy  as np
import  math
import pandas as pd

def IOdatabases():
    dataset=[[1,0,1,1,1,1],
             [1,1,0,0,0,0],
             [1,1,1,1,1,1],
             [1,0,1,0,1,0],
             [1,1,0,1,0,0],
             [0,1,0,1,1,0],
             [1,1,0,0,0,0],
             [1,0,1,1,1,1],
             [0,0,1,1,1,0],
             [1,1,1,1,1,1],
             [1,0,1,0,0,0],
             [0,0,1,1,1,0],
             [1,1,1,0,1,1],
             [1,0,1,1,1,1],
             [1,1,1,1,1,1]
    ]
    label=['颜值','身材','性格','收入','学历','交往'] #前五个属性 1代表高水平，0反之；标签 1 代表交往，0代表不交往
    #测试集
    testdata=[1,1,0,1,1]
    return dataset,label,testdata


import numpy as np


def calculate_prior_probabilities(dataset, target_label_index):
    """
    计算先验概率 P(C_k)
    """
    class_counts = {}
    total_samples = len(dataset)
    for sample in dataset:
        class_label = sample[target_label_index]
        if class_label not in class_counts:
            class_counts[class_label] = 0
        class_counts[class_label] += 1
    prior_probs = {k: v / total_samples for k, v in class_counts.items()}
    return prior_probs


def calculate_conditional_probabilities(dataset, target_label, feature_index, feature_values):
    """
    计算类条件概率 P(x_i|C_k)
    """
    class_samples = [sample for sample in dataset if sample[-1] == target_label]
    num_samples = len(class_samples)
    probabilities = {}
    for feature_value in feature_values:
        count = sum(1 for sample in class_samples if sample[feature_index] == feature_value)
        # 防止除零错误，添加平滑项（例如拉普拉斯平滑）
        probabilities[feature_value] = (count + 1) / (num_samples + len(feature_values))
    return probabilities


def predict_naive_bayes(dataset, target_label_index, testdata):
    """
    使用朴素贝叶斯分类器进行预测，并打印先验概率、条件概率和后验概率
    """
    # 提取特征值和标签
    feature_values = set([sample[i] for sample in dataset for i in range(len(sample) - 1)])
    labels_set = set([sample[target_label_index] for sample in dataset])

    # 计算先验概率
    prior_probs = calculate_prior_probabilities(dataset, target_label_index)
    print("先验概率 :")
    for class_label, prob in prior_probs.items():
        if class_label == 1: label = '交往'
        if class_label == 0: label = '不交往'
        print(f"P(C={label}) = {prob}")

        # 初始化预测概率为负无穷
    max_posterior_prob = float('-inf')
    predicted_class = None

    # 遍历所有类别
    for class_label in labels_set:
        # 计算先验概率（这里已计算过，但为了保持流程清晰，再次取出）
        prior_prob = prior_probs[class_label]

        # 计算类条件概率的乘积
        posterior_prob = prior_prob
        conditional_probs = {}
        for i, feature_value in enumerate(testdata):
            # 计算条件概率
            probs = calculate_conditional_probabilities(dataset, class_label, i, feature_values)
            conditional_probs[i] = probs[feature_value]
            posterior_prob *= probs[feature_value]

            # 打印条件概率
        if class_label == 1: label = '交往'
        if class_label == 0: label = '不交往'
        print(f"对于类别 {label}，条件概率 P(x_i|C={class_label}):")
        for feature_index, prob in conditional_probs.items():
            print(f"P(x_{feature_index}={testdata[feature_index]}|C={class_label}) = {prob}")

            # 打印后验概率（仅打印当前类别，不比较大小）
        print(f"后验概率 P(C={class_label}|x) = {posterior_prob}")

        # 更新最大后验概率和预测类别（实际比较在循环结束后进行）
        if posterior_prob > max_posterior_prob:
            max_posterior_prob = posterior_prob
            predicted_class = class_label

            # 打印预测结果
    if predicted_class==1 : predicted_result='交往'
    if predicted_class == 0: predicted_result = '不交往'
    print(f"预测结果为： {predicted_result}")

    return predicted_class


# 示例
dataset, labels, testdata = IOdatabases()
predict_naive_bayes(dataset, -1, testdata)