【机器学习】如何在Jupyter Notebook中安装库以及简单使用Jupyter实现单变量线性回归的模型f

引言

Jupyter Notebook中有一些魔法指令,需要安装第三方库

一、安装方法

在 Jupyter Notebook 中安装库通常有两种方法:

方法一:使用 pipconda 命令

  1. 使用 pip 安装
    打开 Jupyter Notebook,在新的单元格中输入以下命令,然后运行该单元格:
    !pip install 库名
    
    库名 替换为你想要安装的库的名称。
  2. 使用 conda 安装(如果你使用的是 Anaconda):
    类似地,如果你使用的是 conda 环境,可以使用以下命令:
    !conda install 库名
    

方法二:在命令行(终端或命令提示符)中安装

也可以关闭 Jupyter Notebook,在命令行界面中安装库:

  1. 打开命令行界面(在 Windows 上是命令提示符或 PowerShell,在 macOS 或 Linux 上是终端)。
  2. 输入以下命令之一:
    使用 pip
    pip install 库名
    
    使用 conda
    conda install 库名
    

确保在安装库之前,你的 pipconda(如果使用的话)已经更新到最新版本,这样你可以安装库的最新版本。使用以下命令来更新 pipconda

pip install --upgrade pip
conda update conda

安装库后,通常需要重启 Jupyter Notebook 的内核,以便新安装的库可以被正确加载和使用。在 Jupyter Notebook 中,可以通过点击 “Kernel” 菜单下的 “Restart” 来重启内核

在这里插入图片描述

二、使用Jupyter Notebook实现单变量线性回归的模型 f w , b f_{w,b} fw,b

2.1 工具

在这个实验中,将使用以下工具:

  • NumPy,一个流行的科学计算库
  • Matplotlib,一个流行的数据绘图库
import numpy as np
import matplotlib.pyplot as plt
plt.style.use('./deeplearning.mplstyle')

2.2 问题陈述

这个实验将使用一个简单的数据集,其中只有两个数据点 : 一个1000平方英尺(sqft)的房子以30万美元的价格售出,一个2000平方英尺的房子以50万美元的价格售出。
这两个点将构成我们的数据或训练集。在这个实验中,尺寸的单位是1000平方英尺,价格的单位是10万美元

尺寸 (1000 sqft)价格 (10万美元)
1.0300
2.0500

想要拟合一个线性回归模型(上图中的蓝色直线),以便可以预测其他房子的价格 ,比如一个1200平方英尺的房子

2.3 创建 x_trainy_train 变量

创建变量并将数据存储在一维 NumPy 数组中

  • x_train 是输入变量(1000平方英尺的尺寸)
  • y_train 是目标(10万美元的价格)
x_train = np.array([1.0, 2.0])
y_train = np.array([300.0, 500.0])
print(f"x_train = {x_train}")
print(f"y_train = {y_train}")

2.4 训练示例的数量 m

使用 m 来表示训练示例的数量。Numpy 数组有一个 .shape 参数。x_train.shape 返回一个 Python 元组,每个维度有一个条目。x_train.shape[0] 是数组的长度和示例的数量,如下所示

# m 是训练示例的数量
print(f"x_train.shape: {x_train.shape}")
m = x_train.shape[0]
print(f"训练示例的数量是:{m}")

也可以使用 Python 的 len() 函数,如下所示

# m 是训练示例的数量
m = len(x_train)
print(f"训练示例的数量是:{m}")

2.5 训练示例 x_i, y_i

使用 (x ( i ) ^{(i)} (i), y ( i ) ^{(i)} (i)) 来表示第 i t h i^{th} ith 个训练示例。由于 Python 是从零开始的,(x ( 0 ) ^{(0)} (0), y ( 0 ) ^{(0)} (0)) 是 (1.0, 300.0),(x ( 1 ) ^{(1)} (1), y ( 1 ) ^{(1)} (1)) 是 (2.0, 500.0)
要访问 Numpy 数组中的值,可以使用所需的偏移量索引数组。例如,访问 x_train 位置零的语法是 x_train[0]
运行下面的代码以获取第 i t h i^{th} ith 个训练示例

i = 1 # 更改为 1 以查看 (x^1, y^1)
x_i = x_train[i]
y_i = y_train[i]
print(f"(x^({i}), y^({i})) = ({x_i}, {y_i})")

2.6 绘制数据

  • 使用 matplotlib 库中的 scatter() 函数来绘制这两个点,如下所示
  • 函数参数 markerc 将点显示为红色十字(默认是蓝色点)
  • 使用 matplotlib 库中的其他函数来设置标题和标签以显示
# 绘制数据点
plt.scatter(x_train, y_train, marker='x', c='r')
# 设置标题
plt.title("房屋价格")
# 设置 y 轴标签
plt.ylabel('价格 (以10万美元为单位)')
# 设置 x 轴标签
plt.xlabel('尺寸 (1000平方英尺)')
plt.show()

2.7 观察结果

在这里插入图片描述

如你所见,设置 w = 100 w = 100 w=100 b = 100 b = 100 b=100 并不能得到一条拟合我们数据的直线

2.8 预测

现在我们有了模型,我们可以使用它来进行我们的原始预测。让我们预测一个1200平方英尺的房子的价格。由于 x x x 的单位是1000平方英尺,所以 x x x 是 1.2

w = 200                         
b = 100    
x_i = 1.2
cost_1200sqft = w * x_i + b    
print(f"${cost_1200sqft:.0f} 千美元")

2.9 输出结果

$340 thousand dollars

三、总结

3.1 线性回归建立了一个模型,用于建立特征和目标之间的关系

 - 特征是房屋大小,目标是房屋价格
 - 对于简单的线性回归,模型有两个参数 $w$ 和 $b$,它们的值是通过*训练数据*来“拟合”的
 - 一旦确定了模型的参数,该模型就可以用来对新的数据进行预测
  • 14
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Jupyter Notebook是一种基于网页的交互式计算环境,支持多种编程语言。在Jupyter Notebook,可以使用Python语言进行多元线性回归分析。 多元线性回归是一种用于建立多个自变量与一个因变量之间关系的统计模型。它的基本思想是通过线性组合多个自变量来预测因变量。 在Jupyter Notebook进行多元线性回归分析,首先需要导入相关的Python,如numpy和pandas用于数据处理,以及statsmodels和sklearn用于模型建立和评估。 接下来,需要准备用于回归分析的数据集。可以从csv文件读取数据,并使用pandas将数据转换为DataFrame格式。然后,根据需要选择自变量和因变量,并进行数据预处理,如缺失值填充、特征标准化等操作。 在数据准备完成后,可以使用statsmodels的OLS(Ordinary Least Squares)函数来建立多元线性回归模型。该函数接受自变量和因变量作为参数,并返回一个OLS对象。然后,使用该对象的fit方法进行模型拟合。 完成模型拟合后,可以使用模型的summary方法查看回归结果,其包括自变量的系数、标准误差、t值和p值等信息。如果需要预测新的因变量值,可以使用模型的predict方法。 此外,sklearn的LinearRegression类也可以用于多元线性回归模型的建立和评估。使用该类需要先将自变量和因变量分别保存为数组,然后调用fit方法拟合模型,并使用coef_属性查看自变量的系数。 总结而言,Jupyter Notebook可以方便地进行多元线性回归分析。通过导入相应的Python,准备数据集,建立回归模型,并进行模型评估和预测,可以轻松完成多元线性回归分析任务。 ### 回答2: Jupyter Notebook 是一个交互式的开发环境,可以让用户在网页端编写和运行代码,并且能够保存代码执行过程的结果和图表等信息。多元线性回归是一种用于建立自变量与因变量之间关系的模型方法。 在 Jupyter Notebook 进行多元线性回归分析,首先需要导入所需的,如 pandas、numpy 和 statsmodels。然后,读取包含数据的文件,并使用 pandas 将数据存储在一个数据框。接下来,可以使用 statsmodels 的回归函数来建立多元线性回归模型。 在建立模型之前,需要先确定自变量和因变量之间的关系。在多元线性回归,一个因变量可以被多个自变量所解释。然后,可以使用 statsmodels 的 OLS 函数(普通最小二乘函数)来拟合模型。在拟合模型之后,可以查看回归结果的摘要,其包括回归系数、截距、标准误差、t 值和 p 值等统计指标。 除了建立模型之外,还可以对模型进行诊断:检查模型的拟合情况、残差的正态性和同方差性等。通过绘制残差图和 QQ 图可以对模型进行初步判断。如果模型的残差呈现某种规律,就意味着模型可能存在问题。通过进行模型的修正和改进,可以提高模型的拟合效果。 最后,还可以使用建立好的多元线性回归模型进行预测和预测性分析。通过给定自变量的数值,可以预测因变量的数值。同时,可以使用模型评估指标(如 R2 分数)来评估模型的预测效果。 总之,Jupyter Notebook 是一个方便的工具,可以用于多元线性回归的建立、拟合、诊断和预测。它使得数据分析和建模更加直观和可视化,并且可以通过代码的重复执行来不断优化模型。 ### 回答3: jupyter notebook是一种交互式开发工具,常用于数据分析和机器学习等领域。多元线性回归是一种回归分析方法,适用于当一个因变量与多个自变量之间存在线性关系时。 在jupyter notebook进行多元线性回归,首先需要导入所需的,如numpy和pandas,用于数据处理和计算。然后,可以读取并加载需要进行回归分析的数据集。 接下来,可以使用线性回归模型进行拟合。可以使用sklearn的LinearRegression类来创建一个线性回归模型对象,并将自变量和因变量传递给该对象。 然后,可以使用拟合好的模型对象进行预测。可以使用模型的predict方法来对新的自变量进行预测,得到相应的因变量的预测值。 在拟合和预测之后,可以评估模型的性能。可以使用各种评估指标,如均方误差(MSE)、决定系数(R-squared)等来评估模型的准确度和拟合程度。 最后,可以对结果进行可视化展示。可以使用matplotlib来绘制回归线和散点图,观察预测结果的拟合程度,并对数据进行可视化分析。 总之,通过使用jupyter notebook进行多元线性回归分析,可以方便地进行数据处理、模型拟合、预测和结果可视化等步骤,以帮助我们理解和解释自变量对因变量的影响关系。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值