机器学习——决策树,朴素贝叶斯

一.决策树

  • 决策树中的基尼系数(Gini Index)是用于衡量数据集中不纯度(或混杂度)的指标。基尼系数的取值范围在0到0.5之间,其中0表示数据完全纯(同一类别),0.5表示数据完全混杂。

基尼系数的公式

对于一个节点,基尼系数的计算公式为:

G i n i ( p ) = 1 − ∑ i = 1 n p i 2 Gini(p) = 1 - \sum_{i=1}^{n} p_i^2 Gini(p)=1i=1npi2
其中:

  • ( n ) 是类别的总数。
  • ( p_i ) 是属于类别 ( i ) 的样本所占的比例。

计算步骤

假设在某个节点上有 ( m ) 个样本,分别属于 ( n ) 个不同的类别,类别 ( i ) 的样本数量为 ( c_i ),那么:

p i = c i m p_i = \frac{c_i}{m} pi=mci
将 ( p_i ) 带入基尼系数公式,可以得到:

G i n i ( p ) = 1 − ∑ i = 1 n ( c i m ) 2 Gini(p) = 1 - \sum_{i=1}^{n} \left( \frac{c_i}{m} \right)^2 Gini(p)=1i=1n(mci)2

示例计算

假设某个节点上有以下数据分布:

  • 类别 A: 4 个样本
  • 类别 B: 6 个样本
  • 类别 C: 10 个样本

总样本数量 ( m = 4 + 6 + 10 = 20 )。

每个类别的比例为:

  • 类别 A:
    p A = 4 20 = 0.2 p_A = \frac{4}{20} = 0.2 pA=204=0.2

  • 类别 B:
    p B = 6 20 = 0.3 p_B = \frac{6}{20} = 0.3 pB=206=0.3

  • 类别 C:
    p C = 10 20 = 0.5 p_C = \frac{10}{20} = 0.5 pC=2010=0.5

基尼系数计算如下:

G i n i ( p ) = 1 − ( 0. 2 2 + 0. 3 2 + 0. 5 2 ) = 1 − ( 0.04 + 0.09 + 0.25 ) = 1 − 0.38 = 0.62 Gini(p) = 1 - (0.2^2 + 0.3^2 + 0.5^2) = 1 - (0.04 + 0.09 + 0.25) = 1 - 0.38 = 0.62 Gini(p)=1(0.22+0.32+0.52)=1(0.04+0.09+0.25)=10.38=0.62

该节点的基尼系数为 0.62,表示数据在这个节点上具有一定的不纯度。基尼系数越小,节点越纯,因此在构建决策树时,通常选择基尼系数最小的划分方式来分割数据。

  • DecisionTreeClassifierscikit-learn 库中用于分类任务的决策树模型。决策树通过一系列决策规则将数据分成不同的类别。

1. criterion(默认值:"gini"

  • 含义:用于衡量数据分裂质量的指标。
  • 取值
    • "gini":使用基尼不纯度(Gini impurity)作为分裂的标准。基尼不纯度是衡量集合中随机选择的两个元素属于不同类别的概率。
    • "entropy":使用信息增益(Information Gain),基于信息熵(Entropy)来选择分裂点。

2. splitter(默认值:"best"

  • 含义:选择每次分裂的策略。
  • 取值
    • "best":在所有特征中选择最佳分裂点。
    • "random":随机选择特征的最佳分裂点。

3. max_depth(默认值:None

  • 含义:控制决策树的最大深度。树的深度越大,模型越复杂。
  • 取值
    • None:树会一直生长,直到所有叶节点是纯的,或者每个叶节点包含少于 min_samples_split 个样本。
    • int:树的最大深度。较小的值防止过拟合,较大的值允许树更复杂。

4. min_samples_split(默认值:2

  • 含义:内部节点再分裂所需的最小样本数。
  • 取值
    • int:指定最小样本数的具体值。
    • float:以比例形式指定最小样本数(即一个0到1之间的小数)。

5. min_samples_leaf(默认值:1

  • 含义:叶节点所需的最小样本数。可以防止模型生成包含少量样本的叶节点。
  • 取值
    • int:指定最小样本数的具体值。
    • float:以比例形式指定最小样本数。

6. min_weight_fraction_leaf(默认值:0.0

  • 含义:叶节点所需的最小样本权重的比例。
  • 取值
    • float:介于0到1之间,通常用于处理样本权重。

7. max_features(默认值:None

  • 含义:在每次分裂时考虑的最大特征数量。
  • 取值
    • None:使用所有特征。
    • int:使用指定数量的特征。
    • float:使用特定比例的特征。
    • "auto":等同于 sqrt(n_features)
    • "sqrt":等同于 sqrt(n_features)
    • "log2":等同于 log2(n_features)

8. random_state(默认值:None

  • 含义:控制随机数生成器的种子,以便结果可以复现。
  • 取值
    • None:随机种子。
    • int:指定种子。

9. max_leaf_nodes(默认值:None

  • 含义:限制树的最大叶节点数。设置此参数会优先于 max_depth
  • 取值
    • None:不限制叶节点数量。
    • int:最大叶节点数量。

10. min_impurity_decrease(默认值:0.0

  • 含义:节点分裂后不纯度下降的最小值。如果不纯度下降小于这个值,节点将不再分裂。
  • 取值
    • float:一个非负值。

11. class_weight(默认值:None

  • 含义:为不同类别指定权重,用于处理类别不平衡问题。
  • 取值
    • None:不调整类别权重。
    • dict:根据指定字典中的权重调整类别。
    • "balanced":根据类频率调整权重,权重与样本数量成反比。

12. ccp_alpha(默认值:0.0

  • 含义:复杂度剪枝参数,作为最小成本复杂度修剪的参数。增加此值将导致更简单的树。
  • 取值
    • float:一个非负值。越大越能剪枝。

示例代码

#决策树

from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import accuracy_score

# 1. 加载数据集
wine = load_wine()
X = wine.data
y = wine.target

# 2. 标准化数据
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. PCA降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# 4. 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_pca, y, test_size=0.3, random_state=32)

# 5. 决策树预估器
nb = DecisionTreeRegressor()
nb.fit(X_train, y_train)

# 6. 预测和评估
y_pred = nb.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"分类准确率: {accuracy:.2f}")

  • 控制树的复杂性:可以通过调整 max_depthmin_samples_splitmin_samples_leafmax_leaf_nodes 等参数来控制决策树的复杂性,避免过拟合。
  • 处理类别不平衡:使用 class_weight 参数为不同类别指定权重。

二.朴素贝叶斯

朴素贝叶斯(Naive Bayes)是基于贝叶斯定理的一类简单而强大的分类算法。尽管它的假设比较强(特征之间条件独立),但在许多实际应用中效果非常好。下面是朴素贝叶斯算法的数学原理:

1. 贝叶斯定理

贝叶斯定理是朴素贝叶斯分类器的基础,用于计算后验概率。贝叶斯定理的公式如下:
P ( y ∣ X ) = P ( X ∣ y ) ⋅ P ( y ) P ( X ) P ( y ∣ X ) = P ( X ∣ y ) ⋅ P ( y ) P ( X ) P ( y ∣ X ) = P ( X ) P ( X ∣ y ) ⋅ P ( y ) P(y∣X)=P(X∣y)⋅P(y)P(X)P(y | X) = \frac{P(X | y) \cdot P(y)}{P(X)}P(y∣X)=P(X)P(X∣y)⋅P(y) P(yX)=P(Xy)P(y)P(X)P(yX)=P(X)P(Xy)P(y)P(yX)=P(X)P(Xy)P(y)
其中:

  • P ( y ∣ X ) P ( y ∣ X ) P ( y ∣ X ) P(y∣X)P(y | X)P(y∣X) P(yX)P(yX)P(yX)

    是给定特征 XXX 时类别 yyy 的后验概率。

  • P(X∣y)P(X | y)P(X∣y) 是在类别 yyy 的条件下,特征 XXX 出现的概率,即似然度。

  • P(y)P(y)P(y) 是类别 yyy 的先验概率。

  • P(X)P(X)P(X) 是特征 XXX 的边际概率(用于归一化)。

2. 朴素假设

朴素贝叶斯模型做了一个关键的简化假设,即特征之间是条件独立的,这意味着给定类别 yyy 时,特征
X 1 , X 2 , … , X n X 1 , X 2 , … , X n X 1 , X 2 , … , X n X1,X2,…,XnX_1, X_2, \dots, X_nX1,X2,…,Xn X1,X2,,XnX1,X2,,XnX1,X2,,Xn
是独立的。这一假设大大简化了后验概率的计算,使得模型易于实现且计算效率高。

在这种假设下,贝叶斯定理可以简化为:
P ( y ∣ X 1 , X 2 , … , X n ) ∝ P ( y ) ⋅ P ( X 1 ∣ y ) ⋅ P ( X 2 ∣ y ) ⋅ ⋯ ⋅ P ( X n ∣ y ) P ( y ∣ X 1 , X 2 , … , X n ) ∝ P ( y ) ⋅ P ( X 1 ∣ y ) ⋅ P ( X 2 ∣ y ) ⋅ ⋯ ⋅ P ( X n ∣ y ) P ( y ∣ X 1 , X 2 , … , X n ) ∝ P ( y ) ⋅ P ( X 1 ∣ y ) ⋅ P ( X 2 ∣ y ) ⋅ ⋯ ⋅ P ( X n ∣ y ) P(y∣X1,X2,…,Xn)∝P(y)⋅P(X1∣y)⋅P(X2∣y)⋅⋯⋅P(Xn∣y)P(y | X_1, X_2, \dots, X_n) \propto P(y) \cdot P(X_1 | y) \cdot P(X_2 | y) \cdot \dots \cdot P(X_n | y)P(y∣X1,X2,…,Xn)∝P(y)⋅P(X1∣y)⋅P(X2∣y)⋅⋯⋅P(Xn∣y) P(yX1,X2,,Xn)P(y)P(X1y)P(X2y)P(Xny)P(yX1,X2,,Xn)P(y)P(X1y)P(X2y)P(Xny)P(yX1,X2,,Xn)P(y)P(X1y)P(X2y)P(Xny)
这意味着我们可以通过计算各个特征在每个类别下的条件概率,并将它们相乘来计算后验概率。

  • MultinomialNB() 多项式朴素贝叶斯和 GaussianNB() 都是朴素贝叶斯(Naive Bayes)分类器的变种,适用于不同类型的数据。

1. MultinomialNB()–多项式朴素贝叶斯

  • MultinomialNB() 是朴素贝叶斯分类器的一种,适用于多项式分布数据或者称为计数数据的分类问题。它假设特征是由一个多项分布生成的,这在文本分类和其他类型的分类任务中非常常见。

适用情况

  • 数据特征应为计数数据,如文档中单词出现的次数。
  • 特征可以是整数计数,通常是非负的。
  • 多项式朴素贝叶斯通常用于文本分类,其中特征向量表示单词出现的频率或者 TF-IDF 权重。

工作原理

  • 计算每个类别的条件概率,即给定类别下每个特征的概率分布。
  • 使用贝叶斯定理计算后验概率,并结合各特征的条件概率,得出最终的分类结果。
    #多项式朴素贝叶斯
from sklearn.datasets import load_wine
from sklearn.preprocessing import StandardScaler #标准化
from sklearn.preprocessing import MinMaxScaler#归一化
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
import numpy as np

data = load_wine()

x= data.data

# #标准化
# transfer = StandardScaler()
# x1 =transfer.fit_transform(x)

# 2. 缩放数据到[0, 1]范围
scaler = MinMaxScaler()
x1 = scaler.fit_transform(x)

#PCA降维
tr = PCA(n_components=0.89)
x2 = tr.fit_transform(x1)

# 4. 将负值平移为非负值
x3 = x2- np.min(x2)

x_train, x_test, y_train, y_test = train_test_split(x3, data.target,test_size=0.2,random_state=44)


#MultinomialNB分类--多项式朴素贝叶斯
model = MultinomialNB()
model.fit(x_train,y_train)

score = model.score(x_test,y_test)
print(score)

2. GaussianNB()

  • GaussianNB() 是朴素贝叶斯分类器的另一种形式,适用于特征服从正态分布(Gaussian Distribution)的数据分类问题。

适用情况

  • 特征数据应为连续值,符合正态分布。
  • 可以处理实数特征,如一些测量值或者物理量。

工作原理

  • 假设每个类别的特征值服从正态分布,通过计算每个类别下特征的均值和方差来估计类别条件概率分布。
  • 使用贝叶斯定理计算后验概率,并结合特征的正态分布参数,得出最终的分类结果。
    #朴素贝叶斯分类
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# 1. 加载数据集
wine = load_wine()
X = wine.data
y = wine.target

# 2. 标准化数据
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. PCA降维
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

# 4. 将数据集划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_pca, y, test_size=0.3, random_state=42)

# 5. 朴素贝叶斯分类
nb = GaussianNB()
nb.fit(X_train, y_train)

# 6. 预测和评估
y_pred = nb.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"分类准确率: {accuracy:.2f}")

总结比较

  • 数据类型

    • MultinomialNB() 适用于离散型特征,如计数数据。
    • GaussianNB() 适用于连续型特征,如实数数据。
  • 假设

    • MultinomialNB() 假设特征是由多项分布生成的。
    • GaussianNB() 假设特征值服从正态分布。
  • 应用场景

    • MultinomialNB() 在文本分类(如垃圾邮件分类)、推荐系统(基于用户行为的分类)等方面表现良好。
    • GaussianNB() 在数据特征服从正态分布的情况下表现良好,如一些传感器数据的分类或者健康检测领域。
  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值