机器学习代码通常是指使用编程语言(如Python)编写的代码,用于实现机器学习算法和模型。以下是一些基本的Python机器学习代码示例,包括数据加载、预处理、模型训练和评估。
1. 导入库
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
2. 加载数据
# 假设我们有一个CSV文件名为 'data.csv'
data = pd.read_csv('data.csv')
# 查看数据集的前几行
print(data.head())
3. 数据预处理
# 假设 'features' 是特征列的列表,'label' 是标签列
X = data[features]
y = data[label]
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
4. 训练模型
# 创建逻辑回归模型
model = LogisticRegression()
# 训练模型
model.fit(X_train, y_train)
5. 模型评估
# 预测测试集
y_pred = model.predict(X_test)
# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy * 100:.2f}%")
6. 模型优化
# 这里可以添加模型优化的代码,例如使用网格搜索(GridSearchCV)来寻找最佳参数
from sklearn.model_selection import GridSearchCV
# 定义参数网格
param_grid = {'C': [0.1, 1, 10, 100], 'penalty': ['l1', 'l2']}
# 创建网格搜索对象
grid_search = GridSearchCV(LogisticRegression(), param_grid, cv=5)
# 执行网格搜索
grid_search.fit(X_train, y_train)
# 打印最佳参数
print(grid_search.best_params_)
7. 模型部署
模型部署通常涉及到将训练好的模型保存到文件,并在需要时加载模型进行预测。
import joblib
# 保存模型
joblib.dump(model, 'model.pkl')
# 加载模型
loaded_model = joblib.load('model.pkl')
# 使用加载的模型进行预测
predictions = loaded_model.predict(new_data)
请注意,上述代码是一个简化的示例,实际的机器学习项目可能会涉及更复杂的数据处理、特征工程、模型选择和优化过程。此外,根据具体的应用场景,你可能需要使用不同的库和算法。