basic_classification

1. 分类的定义

     给定一个训练集

     ---每条记录的特征用元组(x, y)表示,其中x是属性集,y是类标签。

        x:可以是,属性,预测变量,自变量,输入

        y:类,响应,因变量,输出

    任务:学习一个模型,这个模型将每一个属性集x映射到一个预定义类标签y

                                    

                                                      图1:建立分类模型的一般方法                   


 

 

 

                                                            图2:一个决策树例子


2. 亨特算法--递归法(最早的分类算法之一)

  • 选择结果类Dt作为训练集的起点。

  • 如果Dt包含的结果属于同一个类别yt,那么t就是被标记为yt的一个叶子结点。

  • 如果Dt包含的结果有多个类别,就使用一个属性测试把数据分成更小的子集。整个子集递归执行这个过程。
IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
1YesSingle125KNo
2NoMarried100KNo
3NoSingle70KNo
4YesMarried120KNo
5NoDivorced95KYes
6NoMarried60KNo
7YesDivorced220KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

                                                               表1:违约借款人

 

                                                                 图3:亨特算法流程 

这张图的意思是:

(a)选择结果类Defaulted Borrower为树根,其中No和Yes的个数是(7,3),很明显这里面有两个类别,Yes和No。所以要继续往下分,选择其他的属性集。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
1YesSingle125KNo
2NoMarried100KNo
3NoSingle70KNo
4YesMarried120KNo
5NoDivorced95KYes
6NoMarried60KNo
7YesDivorced220KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

(b)选择属性Home Owner来替换Defaulted Borrower。它也有两个类别Yes和No,当Home Owner=Yes的时候,选中了3条记录。而这3条记录的Defaulted Borrower=No(3,0),便将Defaulted Borrower作为叶子结点,无需再递归。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
1YesSingle125KNo
2NoMarried100KNo
3NoSingle70KNo
4YesMarried120KNo
5NoDivorced95KYes
6NoMarried60KNo
7YesDivorced220KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

 而剩下的7条Home Owner=No的情况,他们之中Defaulted Borrower仍然有两种类别(4,3),所以仍需继续分下去。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
2NoMarried100KNo
3NoSingle70KNo
5NoDivorced95KYes
6NoMarried60KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

 (c)将属性Marital Status加入子结点中,这里是名词性的属性,有3类,选择二分法,Single和Divorced按照常识都是单身,分为一种,而Married成为另一种。而Marital Status=Married的人,无一例外Defaulted Borrower=No(3,0),所以可以单独成为叶子结点。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
2NoMarried100KNo
3NoSingle70KNo
5NoDivorced95KYes
6NoMarried60KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

 而Matital Status=Single, Divorced的时候,Defaulted Borrower=No,Yes(1,3),所以仍然需要继续分。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
2NoMarried100KNo
3NoSingle70KNo
5NoDivorced95KYes
6NoMarried60KNo
8NoSingle85KYes
9NoMarried75KNo
10NoSingle90KYes

 (d)只剩下最后一个属性Annual Income了,这个是数值型的属性,需要找到临界点,使用二分法,把80K选做临界点可以将它们分开。<80K的均不违约,>80K的均违约。

IDHome OwnerMarital StatusAnnual IncomeDefaulted Borrower
3NoSingle70KNo
5NoDivorced95KYes
8NoSingle85KYes
10NoSingle90KYes

这时结果就很明显了,将其分为(0,1)和(3,0)两个子树。Defaulted Borrower均为单一类别。

总结一下,其实这个算法的意思就是,先选Defaulted Borrower作为树节点,但是存在两种类别(7,3),不能一定确认分类结果,所以继续看是否为Home Owner,当Home Owner=Yes时,Defaulted Borrower=No(3,0),但是当其=No时,Defaulted Borrower仍存在两种类别(4,3);所以继续看Marital Status,当其=Married时,Defaulted Borrower=No(3,0),但当其=Yes时,Defaulted Borrower仍存在两种类别(1,3);所以继续看Annual Income,当其<80K时,Defaulted Borrower=No(1,0),当其>=80K时,Defaulted Borrower=Yes(0,3),均为单一类别。这样就完成了所有记录的分类。


3. 决策树归纳的设计问题

  • 如何拆分训练集?

-指定测试条件(取决于属性类型)

-评估测试条件是否良好

  • 如何终止拆分进程?

-所有记录属于同一类或具有相同的属性值

-提前终止


4. 测试条件的表示方法

  • 取决于属性类型(二元Binary,名词性词Nominal,有序型Ordinal,连续型Continuous)
  • 取决于拆分方式(2路拆分2-way split,多路拆分multi-way split)

4.1 名词性属性的测试条件

4.2 有序属性的测试条件 

 4.3 连续属性的测试条件

基于连续属性的拆分有两种方法:(1)离散化形成有序的分类属性,静态:一开始就离散化;动态:每一个结点都重复这个过程(2)二分法:(A<v)or(A>v),找到所有可能的拆分点,并寻找其最优;计算量会很大。


5. 如何决定最佳拆分?

  •  贪婪法:纯度更高的分布的结点被优先选取
  • 需要结点的杂质值
  • 介绍增益值Gain:计算拆分前的杂质值(P);计算拆分后的杂质值(M);分别计算每个子节点的杂质值再按加权累加即可;选择能使Gain=P-M达到最大的属性测试条件或者说,拆分后杂质值最小。

5.1 结点杂质值的测量方法---Gini Index(基尼指数)

                                                                           Gini Index = 1-\sum_{i=0}^{c-1}pi(t)^{2}     

这里pi(t)是结点t上类别i的频率,c是类别总数。

  • 最大值为1-1/c,这时每一种类别的分布都相等,是分类的最差结果,杂质最高。
  • 最小值为0,这时所有记录都属于同一类别,是分类的最好结果,杂质最低。

                                                     图4 计算单一结点的基尼指数

5.1.1 分类属性计算基尼指数

变种:

                                                                           GINI_{split} = \sum_{i=1}^{k} \frac{n_{i}}{n}GINI(i)

这里n_{i}=子节点i的记录个数,n=父节点的记录个数。选择使孩子结点的加权基尼指数最小的属性。

                                                      图5  计算结点组的基尼指数

5.1.2 连续属性计算基尼指数的方法

为了提高计算效率:对每个节点采取如下措施:

  • 按值给属性排序
  • 线性浏览这些值,每一次更新矩阵值并计算基尼指数
  • 选择基尼指数最低的分割位置。

                                                          图6 计算连续属性的基尼指数

 

5.2 结点杂质值的测量方法---熵Entropy

                                                                     Entropy=-\sum_{i=0}^{c-1}p_{i}(t)log_{2}p_{i}(t)                            

这里p_{i}(t)是类i在结点t的频率,c是类的总数。

  • 最大值是log_{2}c:此时记录的所有类别均匀分布,代表分类的最差情况。
  • 最小值是0:此时所有记录均属于同一类别,代表分类的最好情况。
  • 熵计算和基尼指数计算很类似

                                                           图7 单一结点的熵计算

5.3 结点杂质值的测量方法---分类错误Classification Error

                                                                    Error(t)=1-max_{i}[p_{i}(t)]

  • 最大值是1-1/c:此时这时每一种类别的分布都相等,是分类的最差结果。
  • 最小值是0:此时所有记录均属于同一类别,代表分类的最好情况。

                                              图8 单一结点计算分类错误值


6. 比较以上杂质测量方法

 

                                                       图9 二分法问题的杂质值结果

6.1 Misclassification Error vs Gini Index 

这两张图的大概意思就是分类方法变化了,Gini指数跟着变,但是分类错误值并没有跟着变,而熵和Gini指数很类似,所以第三种方法一般不用。


7. 基于决策树的分类优缺点

  • 优点:

(1)易于构造

(2)分类未知记录时速度极快

(3)易于解释小型树

(4)抗噪能力强大(尤其是在采用避免过度拟合的方法时)

(5)可以轻松处理冗余或不相关的属性(除非属性进行交互)

  • 缺点:

(1)可能的决策树的空间成倍增加。 贪心法通常无法找到最好的树。

(2)不考虑属性之间的交互

(3)每个决策边界仅涉及一个属性

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
As an AI language model, I don't have the capability to write a full-fledged program in Python. However, I can provide some guidance on how you can program a garbage classification program in Python. 1. Collect Data: The first step is to collect and label the images that you will use to train your model. You can use online datasets or create your own. 2. Preprocess the Data: You need to preprocess the data by resizing the images, normalizing the pixel values, and splitting the data into training and testing sets. 3. Build the Model: You can use different deep learning frameworks such as TensorFlow or PyTorch to build your garbage classification model. You can use pre-trained models such as ResNet or VGGNet as a starting point. 4. Train the Model: You need to train the model on the training data by feeding the images into the model and adjusting the weights to minimize the loss. 5. Evaluate the Model: You need to evaluate the model on the testing data to see how well it performs. You can calculate metrics such as accuracy, precision, recall, and F1 score. 6. Use the Model: Once you have trained and evaluated the model, you can use it to classify new images of garbage. Here is some sample code to get you started: ``` import tensorflow as tf from tensorflow.keras.preprocessing.image import ImageDataGenerator # define data directories train_dir = 'path/to/training/data' test_dir = 'path/to/testing/data' # define data generators train_datagen = ImageDataGenerator(rescale=1./255) test_datagen = ImageDataGenerator(rescale=1./255) # define batch size and image size batch_size = 32 img_size = (224, 224) # define training and testing data generators train_generator = train_datagen.flow_from_directory( train_dir, target_size=img_size, batch_size=batch_size, class_mode='categorical') test_generator = test_datagen.flow_from_directory( test_dir, target_size=img_size, batch_size=batch_size, class_mode='categorical') # define the model model = tf.keras.applications.ResNet50( include_top=True, weights=None, input_shape=(224, 224, 3), classes=6) # compile the model model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy']) # train the model model.fit(train_generator, epochs=10, validation_data=test_generator) # evaluate the model model.evaluate(test_generator) ``` This is just a basic example of how you can build a garbage classification program in Python. You can modify and improve the model according to your specific requirements.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值