机器学习实战（六）—分类问题

最新推荐文章于 2023-04-11 18:42:04 发布

时光机丶

最新推荐文章于 2023-04-11 18:42:04 发布

阅读量742

点赞数 1

分类专栏：机器学习实战机器学习实战

本文链接：https://blog.csdn.net/qq_39293290/article/details/90183292

版权

机器学习实战同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

机器学习实战

8 篇文章 0 订阅

订阅专栏

基本分类模型

K近邻分类器（KNN）
通过计算待分类数据点，与已有数据集中的所有数据点的距离。取距离最小的前 K 个点，根据“少数服从多数”的原则，将这个数据点划分为出现次数最多的那个类别。

决策树
一种树形结构的分类器，通过顺序询问分类点的属性决定分类点最终的类别。通常根据特征的信息增益或其他指标，构建一棵决策树。
在分类时，只需要按照决策树中的结点依次进行判断，即可得到样本所属类别。
决策树本质上是寻找一种对特征空间上的划分，旨在构建一个训练数据拟合的好，并且复杂度小的决策树。

朴素贝叶斯
朴素贝叶斯分类器是一个以贝叶斯定理为基础的多分类的分类器。
对于给定数据，首先基于特征的条件独立性假设，学习输入输出的联合概率分布，然后基于此模型，对给定的输入 x ，利用贝叶斯定理求出后验概率最大的输出 y。
朴素贝叶斯是典型的生成学习方法，由训练数据学习联合概率分布，后验概率分布
朴素贝叶斯一般在小规模数据上的表现很好，适合进行多分类任务。

import pandas as pd
import numpy as np  
 
from sklearn.preprocessing import Imputer
from sklearn.cross_validation import train_test_split 
from sklearn.metrics import classification_report
   
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.naive_bayes import GaussianNB
 
def load_datasets(feature_paths, label_paths):
    feature = np.ndarray(shape=(0,41))
    label = np.ndarray(shape=(0,1))
    for file in feature_paths:
        df = pd.read_table(file, delimiter=',', na_values='?', header=None)
        imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
        imp.fit(df)
        df = imp.transform(df)
        feature = np.concatenate((feature, df))
     
    for file in label_paths:
        df = pd.read_table(file, header=None)
        label = np.concatenate((label, df))
         
    label = np.ravel(label)
    return feature, label
 
if __name__ == '__main__':
    ''' 数据路径 '''
    featurePaths = ['A/A.feature','B/B.feature','C/C.feature','D/D.feature','E/E.feature']
    labelPaths = ['A/A.label','B/B.label','C/C.label','D/D.label','E/E.label']
    ''' 读入数据  '''
    x_train,y_train = load_datasets(featurePaths[:4],labelPaths[:4])
    x_test,y_test = load_datasets(featurePaths[4:],labelPaths[4:])
    x_train, x_, y_train, y_ = train_test_split(x_train, y_train, test_size = 0.0)
     
    print('Start training knn')
    knn = KNeighborsClassifier().fit(x_train, y_train)
    print('Training done')
    answer_knn = knn.predict(x_test)
    print('Prediction done')
     
    print('Start training DT')
    dt = DecisionTreeClassifier().fit(x_train, y_train)
    print('Training done')
    answer_dt = dt.predict(x_test)
    print('Prediction done')
     
    print('Start training Bayes')
    gnb = GaussianNB().fit(x_train, y_train)
    print('Training done')
    answer_gnb = gnb.predict(x_test)
    print('Prediction done')
     
    print('\n\nThe classification report for knn:')
    print(classification_report(y_test, answer_knn))
    print('\n\nThe classification report for DT:')
    print(classification_report(y_test, answer_dt))
    print('\n\nThe classification report for Bayes:')
    print(classification_report(y_test, answer_gnb)

时光机丶

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战（六）—分类问题

import pandas as pdimport numpy as np from sklearn.preprocessing import Imputerfrom sklearn.cross_validation import train_test_split from sklearn.metrics import classification_report from s...
复制链接

扫一扫