机器学习实战目录
第一章 python训练线性模型实战
第二章 python训练决策树模型实战
第三章 python训练神经网络模型实战
第四章 python训练支持向量机模型实战
第五章 python训练贝叶斯分类器模型实战
第六章 python训练集成学习模型实战
第七章 python训练聚类模型实战
第八章 python训练KNN模型实战
第九章 python训练CNN模型实战
第十章 python训练RNN模型实战
......(会一直更新)
第一章 python训练线性模型实战
目录
1. 下载数据集
首先,可以在 Kaggle 上寻找适合的数据集,并且进行下载。
步骤如下:
1. 登陆 Kaggle,进入个人账户页面。
2. 点击「Create New API」, 下载 kaggle.json 文件。
3. 将下载好的 kaggle.json 文件移动到 `~/.kaggle/` 目录下。
4. 在 Kaggle 上找到需要下载的数据集,复制下载命令。
5. 在终端中执行复制的下载命令,下载数据集。
2. 加载数据集
使用 Pandas 库读取 CSV 文件格式的数据集,生成训练和测试集。
```python
import pandas as pd
data = pd.read_csv('linear_regression_data.csv')
train_data = data.sample(frac=0.8, random_state=0)
test_data = data.drop(train_data.index)
```
其中,`frac` 参数是用于指定训练集占整个数据集的比例;`random_state` 则是用于设置生成伪随机数的种子,这样可以确保每次运行的时候得到相同的结果。
3. 准备训练数据
```python
import numpy as np
x_train = np.array(train_data['x']).reshape((-1, 1))
y_train = np.array(train_data['y'])
x_test = np.array(test_data['x']).reshape((-1, 1))
y_test = np.array(test_data['y'])
```
在这里,我们将训练集和测试集的 `x` 和 `y` 分别提取出来,然后转换成 numpy 数组的形式。
4. 创建模型
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
```
5. 训练模型
```python
model.fit(x_train, y_train)
```
6. 测试模型
使用测试数据集验证线性回归模型的拟合效果:
```python
y_pred = model.predict(x_test)
from sklearn.metrics import r2_score
score = r2_score(y_test, y_pred)
print(f"R2 score: {score}")
```
这里我们使用的评价指标是 R2 score,用于衡量模型对数据的拟合度。其中,R2 分数越高,说明模型的拟合度越好,即预测结果和真实值之间的差距越小。
大家觉得有帮助的话还请大家给个收藏关注鼓励一下,有什么问题评论区留言,看到会恢复哒~