python机器学习12--Regression回归分析

在下小天n

于 2024-07-30 19:06:36 发布

阅读量440

点赞数 7

分类专栏：机器学习文章标签：机器学习 python 回归

本文链接：https://blog.csdn.net/m0_63860007/article/details/140793955

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1.数据准备

第一步：数据内容一定要有以下两种值域的因果数据。

·　特征（Feature）：因，在统计学称为自变量（Independent Variable）。

·　标签答案（Label）：果，在统计学称为因变量（Dependent Variable）。

比如，天气的温度和湿度值（因，Feature），是否下雨（果，Label），收集大量的数据后就被称为数据集Dataset，其数据量最少100个以上。若能有数百万或千万的数据量，所求出的结果会更好。利用算法进行分析，要准备两个这样的数据集，这两个数据集的值域格式都要一模一样，并且需要人工审查其内容的正确性。

·　训练用数据集（Training Dataset）：通过特定的算法来找出Feature和Label之间的关系。

·　测试用数据集（Testing Dataset）：测试用，用来验证刚刚用运算法和训练用数据集所找出的答案，通过测试用数据集来验证答案是否正确，并求出结果的正确率为多少。而训练和测试用的数据集内容几乎一样，差别就在条数多寡，通常的比例是80∶20。

收集后的数据会推荐依照数据内容的分布形式，来挑选合适的算法。机器学习大数据分析中最重要的就是数据的搜集，如果收集的数据是错误的，不管用什么样的算法都找不到答案。

举个例子来说问题：机器学习如何区分柠檬和橙子

（1）Feature特征值。

我们可以测量它的相关信息（专业用词是Feature特征值），如颜色、甜度、酸度、体积、重量、长度、宽度等。

·　但会发现体积和重量应该不是好的特征值，因为两者太过相近。

·　甜度和酸度虽然可以找出区别，但会破坏商品和成品的完整性。

·　可以用长度、宽度、外形是否为趋近于圆形。

·　颜色来区分：柠檬偏黄色或绿色，而橙子偏橘色。

所以特征值的挑选，就会影响到结果。

（2）Label标签，就是柠檬和橙子，通常都会用一个数字来代表，如1为橙子，2为柠檬。

以实际的图表方法来看，就是把柠檬和橙子的长度、宽度用图表的方法画出来，就会看到这些特征值的位置区分当然。画得好坏叫作机器学习（Machine Learning）的过程，改善准确率的方法叫数据挖掘（Data Mining）。完成之后，就能用这一条蓝线当成判断点，用来作为未来新水果的判断，也就是Regression回归分析。

运行结果如图19-2所示。

回归分析（Regression Analysis）是一种统计学上解析数据的方法，目的在于了解两个或多个变量之间是否相关，并创建数学模型以便观察特定变量来预测研究者感兴趣的变量。更具体地说，回归分析会依照自变量，产生另外因变量。

回归分析根据自变量的数量，可分为以下两种：

（1）简单回归分析：用一个自变量来解释一个因变量回归分析。

（2）复回归分析：用两个或两个以上的自变量来解释一个因变量的回归分析。

回归模型亦可视其函数的模式区分为线性与非线性两种。

· Y=a+bX为线性模式。

· Y=a+Xb则为非线性模式。

import matplotlib.pyplot as plt 
plt.plot([1,2,3,4],[0,0.3,0.6,0.9],'gx')
plt.plot([1,2,3,4],[0,0.3,0.6,0.9],'r--')
plt.axis([0,5,0,1])
plt.ylabel('Y')
plt.xlabel('X')
plt.show()

残差答案趋近于零，就代表这个回归分析得出的答案非常符合实际的数据。如果是0，很可能出现了问题，要进行仔细检查。

import pandas as pd
# 导入 pandas 模块

from sklearn import linear_model
# 导入 sklearn 的线性回归模型

import matplotlib.pyplot as plt
# 导入 matplotlib 的 pyplot 模块

# 准备训练和测试的数据
x_values = pd.DataFrame([0, 1, 2])
# 特征 Features
y_values = pd.DataFrame([0, 0.3, 0.6])
# 标签答案 Label

x_test = pd.DataFrame([-1, 3, 5])
# 测试用的特征 Features

# 创建线性回归模型实例
body_reg = linear_model.LinearRegression()

# 训练模型
body_reg.fit(x_values, y_values)

# 预测
y_test_predict = body_reg.predict(x_test)

# 打印预测结果
print("body_reg.predict(x_test)", y_test_predict)

# 显示图形
plt.scatter(x_values, y_values)  # 画出原本的数据点
plt.scatter(x_test, y_test_predict, color='red')  # 画出预测的数据点，使用红色
plt.plot(x_test, body_reg.predict(x_test), color="blue")  # 画出预测的线，使用蓝色

# 显示图形
plt.show()

糖尿病实战

通过以下的程序将数据下载取得糖尿病数据，并通过图形化的方法，了解这个糖尿病数据的样貌，数据来自scikit-learn糖尿病数据集。

import matplotlib.pyplot as plt  # 绘图函数库
import numpy as np  # 矩阵函数库
from sklearn import datasets, linear_model  # 线性回归函数库

# 取得糖尿病的数据
diabetes = datasets.load_diabetes()

# 只取第三个特征值BMI
diabetes_X = diabetes.data[:, np.newaxis, 2]

# 切分特征值BMI，将数据分为训练集和测试集
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

# 切分目标值，将数据分为训练集和测试集
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]

# 绘图
plt.scatter(diabetes_X_test, diabetes_y_test, color='black')  # 绘制黑点
plt.show()  # 显示绘图

import matplotlib.pyplot as plt  # 绘图函数库
import numpy as np  # 矩阵函数库
from sklearn import datasets, linear_model  # 线性回归函数库
diabetes=datasets.load_diabetes()
diabetes_X=diabetes.data[:,np.newaxis,2]
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]

# 切分目标值，将数据分为训练集和测试集
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]
regr=linear_model.LinearRegression()
regr.fit(diabetes_X_train,diabetes_y_train)
print(regr.coef_)
print(np.mean(regr.predict(diabetes_X_test)-diabetes_y_test**2))
plt.scatter(diabetes_X_test,diabetes_y_test,color='blue')
plt.plot(diabetes_X_test,regr.predict(diabetes_X_test),color='blue',linewidth=3)
plt.xticks([])
plt.yticks([])
plt.show()

在下小天n

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python机器学习12--Regression回归分析

比如，天气的温度和湿度值（因，Feature），是否下雨（果，Label），收集大量的数据后就被称为数据集Dataset，其数据量最少100个以上。机器学习大数据分析中最重要的就是数据的搜集，如果收集的数据是错误的，不管用什么样的算法都找不到答案。·　测试用数据集（Testing Dataset）：测试用，用来验证刚刚用运算法和训练用数据集所找出的答案，通过测试用数据集来验证答案是否正确，并求出结果的正确率为多少。（2）Label标签，就是柠檬和橙子，通常都会用一个数字来代表，如1为橙子，2为柠檬。
复制链接

扫一扫

专栏目录