在机器学习中有很多的开源库,scikit-learn是其中一个较为优秀的开发库,官网地址 地址 。
scikit-learn
简称为sklearn
,在里面集成了大量的常见机器学习算法,后面会专门来介绍sklearn
的整个框架,这里先直接拿过来使用,用来做逻辑回归。
使用pip 安装 sklearn
pip install scikit-learn
在sklearn
中已经对大部分的算法进行了封装,算法的过程相当于把数据喂给
算法,再用算法对数据进行预测。
建立模型,对数据进行训练
model = LogisticRegression(C=1e9)
model.fit(train_data, train_result)
预测数据:
predict_y = model.predict(test_data)
这就代替了我们需要自己写逻辑分类了。
用sklearn
替换算法。
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import matplotlib.pyplot as plt
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
df = pd.read_csv("ex2data1.txt", header=None)
score_data = df.values[:,:-1]
result_data = df.values[:,-1:]
model = LogisticRegression(C=1e9)
model.fit(score_data, result_data)
h = 0.02
x_min, x_max = df.loc[:, 0].min() - .5, df.loc[:, 0].max() + .5
y_min, y_max = df.loc[:, 1].min() - .5, df.loc[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
# 绘制边界和散点
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, cmap=plt.cm.Paired)
ex_data_0 = df[df[2] == 0].values
ex_data_1 = df[df[2] == 1].values
plt.scatter(ex_data_0[:, 0], ex_data_0[:, 1], marker='x', c='r')
plt.scatter(ex_data_1[:, 0], ex_data_1[:, 1], marker='o', c='black')
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.savefig('sklearn_lg.png')
得到了如下的结果:
这里解释一下plt.contourf
这个是sklearn
经常用到的绘图函数,sklearn
通过预测该区域中的数值,通过plt.contourf
绘制出,也就是更加不同的值,显示不同的颜色,也就是等高线绘图。