(PYTHON)西瓜书课后习题3.3手写对数几率回归

手动实现西瓜书课后习题3.3对数几率回归分类

西瓜书课后习题3.3对西瓜数据集实现对数几率回归,完成对数据集的分类,输出分类精度

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

path = r'C:\Users\Documents\WeChat Files\wxid_d76e8odqe93l22\FileStorage\File\2020-03\课后习题3.3_西瓜数据集3.0α.xlsx'
melon = pd.read_excel(path)                                
melon['好瓜'] = melon['好瓜'].map({'是':1,'否':0})          #将类别标签置换成0,1分类
label=np.array(melon['好瓜'])
labels=label.reshape(17,1)                                 #对标签reshape方便后续运算
data=np.array(melon[['密度','含糖率']])                     
        
def sigmoid(z):
    return 1.0 / (1 + np.exp(-z))                          #定义sigmoid函数

b=np.ones((len(melon),1))                                  
data = np.c_[b,data]									   #添加常数项

w=np.ones((3,1))                                           #初始化参数
n=0.01                                                     #学习率
for i in range(500000):                                   
    y = sigmoid(data.dot(w))
    m = y-labels										   #计算误差值
    w = w-data.transpose().dot(m)*n                        #误差反传更新参数,梯度下降算法
print(np.abs(m).sum())                                     #打印误差值
    
plt.scatter(data[:, 1], data[:, 2], c=label, cmap=plt.cm.Spectral)
x=np.linspace(0,1,100)
y=-(w[1]*x+w[0])/w[2]
plt.plot(x,y)
plt.rcParams['font.sans-serif']=['SimHei']
plt.xlabel('密度')
plt.ylabel('含糖率')
plt.show()                              #可视化,查看分类结果

误差值之和:5.903888797109145


可视化分类结果,直线上方为1类,下方为2类
分类准确率为70.6%

对分类结果不太满意,继续添加参数,添加密度平方项,再进行对数几率回归

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

path = r'C:\Users\Documents\WeChat Files\wxid_d76e8odqe93l22\FileStorage\File\2020-03\课后习题3.3_西瓜数据集3.0α.xlsx'
melon = pd.read_excel(path)
melon['好瓜'] = melon['好瓜'].map({'是':1,'否':0})
label=np.array(melon['好瓜'])
labels=label.reshape(17,1)
data=np.array(melon[['密度','含糖率']])
        
def sigmoid(z):
    return 1.0 / (1 + np.exp(-z))

b=np.ones((len(melon),1))
data = np.c_[b,data]
x2=np.square(data[:,[1]])
data = np.c_[data,x2]						#添加密度的平方项

w=np.ones((4,1))
n=0.01
for i in range(500000):
    y = sigmoid(data.dot(w))
    m = y-labels
    w = w-data.transpose().dot(m)*n
print(np.abs(m).sum())
    
plt.scatter(data[:, 1], data[:, 2], c=label, cmap=plt.cm.Spectral)
x=np.linspace(0,1,100)
y=-(w[1]*x+w[0]+w[3]*x*x)/w[2]
plt.plot(x,y)
plt.ylim(0., 0.5)
plt.rcParams['font.sans-serif']=['SimHei']
plt.xlabel('密度')
plt.ylabel('含糖率')
plt.show()

误差值之和:4.4156484190286545

在这里插入图片描述
分类准确率82.4%

  • 4
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值