机器学习入门实战——逻辑斯谛回归实战breast cancer数据集

最新推荐文章于 2024-05-28 02:00:00 发布

Quanfita

最新推荐文章于 2024-05-28 02:00:00 发布

阅读量3k

点赞数 3

分类专栏：机器学习机器学习笔记文章标签： breast cancer

本文链接：https://blog.csdn.net/qq_30611601/article/details/80116444

版权

机器学习同时被 2 个专栏收录

15 篇文章 3 订阅

订阅专栏

机器学习笔记

14 篇文章 5 订阅

订阅专栏

更多有关逻辑斯谛回归的理论知识查看：逻辑斯谛回归

代码实战

首先，我们还是先将需要用到的库导入，应为此数据集缺少名称，所以，使用pandas导入数据时，我们需要手动添加名称

import pandas as pd
import numpy as np
import tensorflow as tf
column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size',
                'Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size',
               'Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
data = pd.read_csv('breast-cancer-train.csv',names=column_names)
data.head()

为了更好的了解数据集的情况，我们查看一下数据信息

data.info()
data = data.replace(to_replace='?',value=np.nan)
data = data.dropna(how='any')
data.shape

<class 'pandas.core.frame.DataFrame'>
Int64Index: 683 entries, 0 to 698
Data columns (total 11 columns):
Sample code number             683 non-null int64
Clump Thickness                683 non-null int64
Uniformity of Cell Size        683 non-null int64
Uniformity of Cell Shape       683 non-null int64
Marginal Adhesion              683 non-null int64
Single Epithelial Cell Size    683 non-null int64
Bare Nuclei                    683 non-null object
Bland Chromatin                683 non-null int64
Normal Nucleoli                683 non-null int64
Mitoses                        683 non-null int64
Class                          683 non-null int64
dtypes: int64(10), object(1)
memory usage: 84.0+ KB

接下来，我们将数据集划分为训练集和测试集

from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test = train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)

将数据标准化，导入逻辑斯谛回归模型，然后就可以进行预测了

from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

ss = StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)

print(X_train.shape,Y_train.shape)

lr = LogisticRegression()
lr.fit(x_train,y_train)
y_predict = lr.predict(x_test)

最后，我们查看一下模型的效果

from sklearn.metrics import classification_report
print(lr.score(x_test,y_test))

0.988304093567

代码参考：《Python机器学习及实践：从零开始通往Kaggle竞赛之路》

Quanfita

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
打赏
2
评论
机器学习入门实战——逻辑斯谛回归实战breast cancer数据集

更多有关逻辑斯谛回归的理论知识查看：逻辑斯谛回归代码实战首先，我们还是先将需要用到的库导入，应为此数据集缺少名称，所以，使用pandas导入数据时，我们需要手动添加名称import pandas as pdimport numpy as npimport tensorflow as tfcolumn_names = ['Sample code number','Clump...
复制链接

扫一扫