建立一个逻辑回归模型来预测一个学生是否被大学录取。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
#设置数据的路径,os.sep 根据你所处的平台,自动地采用相应的分割符号。
import os
path = 'data' + os.sep + 'LogiReg_data.txt'
#读取csv文件,括号内,第一个是路径,第二个是header,指定行数用来作为列名,数据开始行数。如果文件中没有列名,则默认为0,否则设置为None。第三个名字是对数据1,2,3列进行命名。
pdData = pd.read_csv(path, header=None, names=['Exam 1', 'Exam 2', 'Admitted'])pdData.head()
#读取数据的维度
pdData.shape
#下面是返回一个第三列中等于1的数据,和第三列中等于0的数据。等于分开了数据。分成两组。
positive = pdData[pdData['Admitted'] == 1] # returns the subset of rows such Admitted = 1, i.e. the set of *positive* examples
negative = pdData[pdData['Admitted'] == 0] # returns the subset of rows such Admitted = 0, i.e. the set of *negative* examples#画图的画图域,大小先确定,长10,宽5
fig, ax = plt.subplots(figsize=(10,5))
#把上面确定的画出来,先画x的exam1,后画出来y的exam2,s是标量,默认可以是20,c是颜色 ,marker是形状,label是标签。