机器学习项目---预测心脏病（二）

最新推荐文章于 2023-10-30 20:22:42 发布

cottpaddedC

最新推荐文章于 2023-10-30 20:22:42 发布

阅读量2.7k

点赞数 4

分类专栏：极其学习和深度学习文章标签：决策树算法 python 机器学习

本文链接：https://blog.csdn.net/cottpaddedC/article/details/110476912

版权

数据处理和数据分析请看上一篇文章

from sklearn.model_selection import train_test_split
X = dataset.drop('target', axis=1)
y = dataset.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

机器学习模型训练
现在，我们已经将数据分为训练集和测试集，是时候建立机器学习模型了。
我们将在训练集上训练它（找到模式）。
然后，我们将在测试集上测试它（使用模式）。
我们将尝试6种不同的机器学习模型：

逻辑回归
最近邻分类器
支持向量机
决策树分类器
随机森林分类器
XGBoost分类器

from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
def print_score(clf, X_train, y_train, X_test, y_test, train=True):
    if train:
        pred = clf.predict(X_train)
        clf_report = pd.DataFrame(classification_report(y_train, pred, output_dict=True))
        print("Train Result:\n================================================")
        print(f"Accuracy Score: {accuracy_score(y_train, pred) * 100:.2f}%")
        print("_______________________________________________")
        print(f"CLASSIFICATION REPORT:\n{clf_report}")
        print("_______________________________________________")
        print(f"Confusion Matrix: \n {confusion_matrix(y_train, pred)}\n")
        
    elif train==False:
        pred = clf.predict(X_test)
        clf_report = pd.DataFrame(classification_report(y_test, pred, output_dict=True))
        print("Test Result:\n================================================")        
        print(f"Accuracy Score: {accuracy_score(y_test, pred) * 100:.2f}%")
        print("_______________________________________________")
        print(f"CLASSIFICATION REPORT:\n{clf_report}")
        print("_______________________________________________")
        print(f"Confusion Matrix: \n {confusion_matrix(y_test, pred)}\n")

分类报告：sklearn.metrics.classification_report(y_true, y_pred, labels=None, target_names=None,sample_weight=None, digits=2)，显示主要的分类指标，返回每个类标签的精确、召回率及F1值
精度(precision) = 正确预测的个数(TP)/被预测正确的个数(TP+FP)

召回率(recall)=正确预测的个数(TP)/预测个数(TP+FN)

F1 = 2精度召回率/(精度+召回率)

Logistic Regression（逻辑回归算法）

from sklearn.linear_model import LogisticRegression

lr_clf = LogisticRegression(solver='liblinear')
lr_clf.fit(X_train, y_train)

print_score(lr_clf, X_train, y_train, X_test, y_test, train=True)
print_score(lr_clf, X_train, y_train, X_test, y_test, train=False)

在这里插入图片描述

简单粗暴的理解逻辑回归
从上图的逻辑回归算法模型我们是使用**sklearn.linear_model.LogisticRegression（solver=‘liblinear’, penalty=, C = ）

API的介绍：
solver:*{‘liblinear’, ‘sag’, ‘saga’,‘newton-cg’, ‘lbfgs’}，默认: ‘liblinear’；用于优化问题的算法。（对于小数据集来说，“liblinear”是个不错的选择，而“sag”和’saga’对于大型数据集会更快。对于多类问题，只有’newton-cg’， ‘sag’， 'saga’和’lbfgs’可以处理多项损失;“liblinear”仅限于“one-versus-rest”分类。）

penalty：在调参时如果我们主要的目的只是为了解决过拟合，一般penalty选择L2正则化就够了。但是如果选择L2正则化发现还是 过拟合，即预测效果差的时候，就可以考虑L1正则化。（如果是L2正则化，那么4种可选的算法{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’}都可以选择。但是如果penalty是L1正则化的话，就只能选择‘liblinear’了。）

C：一个浮点数，它指定了惩罚系数的倒数。如果它的值越小，则正则化越大。

训练数据模型
		sklearn.linear_model.LogisticRegression（）.fit(X_train, y_train)

K-nearest neighbors（K-邻值算法）

在sklearn库中，KNeighborsClassifier是实现K近邻算法的一个类，一般都使用欧式距离进行测量

from sklearn.neighbors import KNeighborsClassifier

knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train, y_train)

print_score(knn_clf, X_train, y_train, X_test, y_test, train=True)
print_score(knn_clf, X_train, y_train, X_test, y_test, train=False)

在这里插入图片描述

简单粗暴的理解k邻值算法：
knn_clf = KNeighborsClassifier()
1
KNeighborsClassifier(n_neighbors=5, weights=‘uniform’, algorithm=‘auto’, leaf_size=30, p=2, metric=‘minkowski’, metric_param

最低0.47元/天解锁文章

cottpaddedC

关注

4
点赞
踩
49

收藏

觉得还不错? 一键收藏
0
评论
机器学习项目---预测心脏病（二）

机器学习项目—预测心脏病（二）cottpaddedC 2020-12-02 01:50:02 34 收藏分类专栏：极其学习和深度学习文章标签：算法 python 机器学习决策树深度学习编辑版权数据处理和数据分析请看上一篇文章机器学习模型训练（不使用调参的方式）现在，我们已经将数据分为训练集和测试集，是时候建立机器学习模型了。我们将在训练集上训练它（找到模式）。然后，我们将在测试集上测试它（使用模式）。我们将尝试6种不同的机器学习模型：逻辑回归最近邻分类器支持向量机决
复制链接

扫一扫