机器学习入门实战——逻辑斯谛回归实战breast cancer数据集

更多有关逻辑斯谛回归的理论知识查看:逻辑斯谛回归

代码实战

首先,我们还是先将需要用到的库导入,应为此数据集缺少名称,所以,使用pandas导入数据时,我们需要手动添加名称

import pandas as pd
import numpy as np
import tensorflow as tf
column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size',
                'Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell Size',
               'Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']
data = pd.read_csv('breast-cancer-train.csv',names=column_names)
data.head()

为了更好的了解数据集的情况,我们查看一下数据信息

data.info()
data = data.replace(to_replace='?',value=np.nan)
data = data.dropna(how='any')
data.shape
<class 'pandas.core.frame.DataFrame'>
Int64Index: 683 entries, 0 to 698
Data columns (total 11 columns):
Sample code number             683 non-null int64
Clump Thickness                683 non-null int64
Uniformity of Cell Size        683 non-null int64
Uniformity of Cell Shape       683 non-null int64
Marginal Adhesion              683 non-null int64
Single Epithelial Cell Size    683 non-null int64
Bare Nuclei                    683 non-null object
Bland Chromatin                683 non-null int64
Normal Nucleoli                683 non-null int64
Mitoses                        683 non-null int64
Class                          683 non-null int64
dtypes: int64(10), object(1)
memory usage: 84.0+ KB

接下来,我们将数据集划分为训练集和测试集

from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test = train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)

将数据标准化,导入逻辑斯谛回归模型,然后就可以进行预测了

from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

ss = StandardScaler()
x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)

print(X_train.shape,Y_train.shape)

lr = LogisticRegression()
lr.fit(x_train,y_train)
y_predict = lr.predict(x_test)

最后,我们查看一下模型的效果

from sklearn.metrics import classification_report
print(lr.score(x_test,y_test))

0.988304093567

代码参考:《Python机器学习及实践:从零开始通往Kaggle竞赛之路》

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Quanfita

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值