周志华《机器学习》课后习题解答系列（四）：Ch3.3 - 编程实现对率回归

最新推荐文章于 2024-09-09 14:44:05 发布

Snoopy_Yuan

最新推荐文章于 2024-09-09 14:44:05 发布

阅读量2w

点赞数 26

分类专栏：机器学习文章标签：机器学习对率回归梯度下降法 python sklearn

本文链接：https://blog.csdn.net/Snoopy_Yuan/article/details/63684219

版权

本文详细介绍了如何使用Python的sklearn库和自编程实现对率回归，包括数据预处理、逻辑斯蒂回归模型的构建、梯度下降法优化。通过实例展示了sklearn库的逻辑回归函数和自编程逻辑回归的比较，以及混淆矩阵、决策区域的绘制，探讨了批量梯度下降与随机梯度下降的适用场景。

摘要由CSDN通过智能技术生成

这里采用Python-sklearn的方式，环境搭建可参考数据挖掘入门：Python开发环境搭建（eclipse-pydev模式）.

相关答案和源代码托管在我的Github上：PY131/Machine-Learning_ZhouZhihua.

思路概要

编程实现对率回归：
* 采用sklearn逻辑斯蒂回归库函数实现，通过查看混淆矩阵，绘制决策区域来查看模型分类效果；
* 自己编程实现，从极大化似然函数出发，采用梯度下降法得到最优参数，然后尝试了随机梯度下降法来优化过程。

3.3 编程实现对率回归

所使用的数据集如下：

本题是本书的第一个编程练习，采用了自己编程实现和调用sklearn库函数两种不同的方式，详细解答和编码过程：（查看完整代码）：

1.获取数据、查看数据、预处理：

观察数据可知，X包含（密度、含糖量）两个变量，y为西瓜是否好瓜分类（二分），由此生成.csv数据文件，在Python中用Numpy读取数据并采用matplotlib库可视化数据：

样例代码：

'''
data importion
'''
import numpy as np
import matplotlib.pyplot as plt  

# load the CSV file as a numpy matrix
dataset = np.loadtxt('../data/watermelon_3a.csv', delimiter=",")

# separate the data from the target attributes
X = dataset[:,1:3]
y = dataset[:,3]

# draw scatter diagram to show the raw data
f1 = plt.figure(1)   
plt.title('watermelon_3a')  
plt.xlabel('density')  
plt.ylabel('ratio_sugar')  
plt.scatter(X[y == 0,0], X[y == 0,1], marker = 'o', color = 'k', s=100, label = 'bad')
plt.scatter(X[y =