1、在终端中使用 pip
命令安装你需要的机器学习库
常用的机器学习库有:
- Scikit-learn(用于基本的机器学习算法)
- TensorFlow(用于深度学习)
- Keras(用于深度学习,通常与 TensorFlow 一起使用)
- PyTorch(另一个流行的深度学习框架)
- Pandas(用于数据处理)
终端使用win+R打开,输入命令:
pip install scikit-learn
pip install tensorflow
pip install keras
pip install torch
pip install pandas
2、检查机器学习库是否安装成功
import sklearn
print(sklearn.__version__)
运行结果
3、在代码中导入相关库
安装完成后,你可以在 Python 代码中导入这些库。例如:
import numpy as np
# 导入 NumPy 库的语句,并且将该库简化为 np 这个别名。
import pandas as pd
# 导入 pandas 库的语句,并且将该库简化为 pd 这个别名。
from sklearn.model_selection import train_test_split
# 从 Scikit-learn 库中导入 `train_test_split` 函数
from sklearn.ensemble import RandomForestClassifier
# 从 Scikit-learn 库中导入 RandomForestClassifier 类
(1) `train_test_split` 函数用于将数据集拆分为训练集和测试集,以便进行机器学习模型的训练和评估。这个函数接受输入数据(特征)和输出数据(标签),并将它们随机拆分为两个部分:训练集和测试集。训练集用于训练模型,测试集用于评估模型的性能。
### 常见用法:
from sklearn.model_selection import train_test_split
import numpy as np
# 示例数据
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]]) # 特征数据
y = np.array([0, 1, 0, 1]) # 标签数据
# 拆分数据集,75%用于训练,25%用于测试
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)
print("训练集特征:\n", X_train)
print("测试集特征:\n", X_test)
print("训练集标签:\n", y_train)
print("测试集标签:\n", y_test)
### 参数说明:
- `X`:输入特征数据。
- `y`:输出标签数据。
- `test_size`:测试集的比例或绝对数量,通常是小数(如 0.25 表示 25%)或整数(如 1 表示一个样本)。
- `random_state`:随机种子,设置random_state的值为固定数,可以保证每次划分的结果一致。即其取值不变时,每次运行代码划分得到的结果一模一样,其值改变时,划分得到的结果不同。若不设置此参数,则划分结果是随机的每次都不一样,这样可能导致得到的训练结果不同。
例如上述代码random_state=42输出结果为:
将random_state的值改为50时划分结果为:
(2) RandomForestClassifier 类是随机森林算法的一种实现,广泛用于分类任务。随机森林分类器是一个集成学习方法,它由多个决策树组成。每棵树都是在训练数据的一个随机子集上训练而成,最终通过投票机制(每棵树投票选择类别)来决定输出类别。