下面代码为: .ipynb文件, 可以在Jupyter上运行
题目为:
给了两个.csv文件(一个训练, 一个测试)
car.csv
cartest.csv
训练买车的因素与什么有关
要求求出对应的id是否买车
import numpy as np#处理矩阵
import matplotlib.pyplot as plt#画图
import pandas as pd #资料处理(读csv文件)
from sklearn import linear_model#Scikit-learn的基本功能主要被分为六大部分:
#分类,回归,聚类,数据降维,模型选择和数据预处理。
from sklearn import preprocessing
from numpy import array
from numpy import argmax
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
%matplotlib inline
#读csv文件
data = pd.read_csv('/Users/liyixin/Desktop/AI/second-car/car.csv')
data_t = pd.read_csv('/Users/liyixin/Desktop/AI/second-car/cartest.csv')
#数据处理
#Male和Female变成0,1表示
M_F = data.iloc[:, 1].values #使用1列的資料
data.loc[data["Gender"]=="male", "Gender"] = 1
data.loc[data["Gender"]=="female", "Gender"] = 0
data_t.loc[data_t["Gender"]=="male", "Gender"] = 1
data_t.loc[data_t["Gender"]=="female", "Gender"] = 0
#归一化处理
#使用数据
X = data.iloc[:, [2, 3]].values #使用1跟3列的資料:[1, 3]
Y = data.iloc[:, 4].values #使用4列的資料
X_t = data_t.iloc[:, [2, 3]].values #使用1跟3列的資料
#?预测
# Y_t = data_t.iloc[:, 4].values #使用4列的資料
#训练
logreg =linear_model.LogisticRegression(C=10000) # C = 1/alpha 找到线的最好画法
logreg.fit(X, Y) #用fit进行训练
a=logreg.score(X, Y) #求准确度
# b=logreg.score(X_t, Y_t)
print("logistic_train={}".format(a)) #输出准确度
# print("logistic_test={}".format(b))
# 繪製決策邊界。為此,我們將為每個顏色分配一個顏色
# 指向網格[x_min,x_max所]:[Y_MIN,Y_MAX] 网格的大小
x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
h = .02 # 網格中的步長,快速找到某点
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h)) #根據給定的坐標向量創建坐標矩陣
#(自适应坐标轴,自动抓取max和民决定边界)
Z = logreg.predict(np.c_[xx.ravel(), yy.ravel()]) #按colunm來組合,预测线
Z = Z.reshape(xx.shape) #找出0及1的座標位置,找位置,存成矩阵样式
plt.figure(figsize=(15, 5))
plt.subplot(121)
plt.pcolormesh(xx, yy, Z, cmap='RdBu')
plt.scatter(X[:, 0], X[:, 1], c=Y, edgecolors='k', cmap=plt.cm.Paired)#画出点
plt.xlabel('x')
plt.ylabel('y')
plt.title("train")
plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
x_min_t, x_max_t = X_t[:, 0].min() - .5, X_t[:, 0].max() + .5
y_min_t, y_max_t = X_t[:, 1].min() - .5, X_t[:, 1].max() + .5
h = .02 # 網格中的步長
xx_t, yy_t = np.meshgrid(np.arange(x_min_t, x_max_t, h), np.arange(y_min_t, y_max_t, h)) #根據給定的坐標向量創建坐標矩陣
Z_t = logreg.predict(np.c_[xx_t.ravel(), yy_t.ravel()]) #按colunm來組合,预测线
Z_t = Z_t.reshape(xx_t.shape) #找出0及1的座標位置,找位置,存成矩阵样式
print(Z_t)
plt.subplot(122)
plt.pcolormesh(xx_t, yy_t, Z_t, cmap='RdBu')
# plt.scatter(X_t[:, 0], X_t[:, 1], c=Y_t, edgecolors='k', cmap=plt.cm.Paired)
plt.xlabel('x')
plt.ylabel('y')
plt.show()