机器学习-分类算法

最新推荐文章于 2020-04-21 22:19:10 发布

码里安乐窝

最新推荐文章于 2020-04-21 22:19:10 发布

阅读量427

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_43078445/article/details/104672275

版权

本文详细介绍了机器学习中的分类算法，包括逻辑回归、朴素贝叶斯、K近邻、决策树、随机森林和提升决策树，并通过实例在Jupyter环境中实现。文章强调了对每种算法的评价方法的理解，同时提供了马疝气病症预测的数据集用于实践。最后，作者反思了学习过程，指出在优化算法方面还有待提高。

摘要由CSDN通过智能技术生成

机器学习-分类算法

一、目的

1.熟练掌握logistics线性分类算法
2.了解并掌握朴素贝叶斯分类算法
3.了解并掌握K近邻分类算法
4.熟练掌握决策树分类算法
5.了解并掌握随机森林、提升决策树等集成分类模型
6.熟练掌握分类评价方法

二、题目与解析

“使用logistics线性分类算法实现恶性肿瘤分类测”实例，并在Jupyter环境重现所有结果，要求对每一条Python语句均清楚了解其语法和用法，并重点理解分类算法的评价方法。包括代码

import pandas as pd
import numpy as np
#创建特征列表
column_names=['Sample code number ','Clump Thickness','Uniformity of Cell Size',
              'Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size',
             'Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
data=pd.read_csv(r'C:\Users\Administrator\Desktop\breast-cancer-wisconsin.data',names=column_names)
data=data.replace(to_replace='?',value=np.nan)
data=data.dropna(how='any')
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=0)
y_train.value_counts()
y_test.value_counts()
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier
ss=StandardScaler()
X_train=ss.fit_transform(x_train)
X_test=ss.transform(x_test)
#初始化逻辑斯特回归
lr=LogisticRegression()
sgdc= SGDClassifier()
lr.fit(x_train,y_train)
lr_y_predict=lr.predict(X_test)
sgdc.