Python在数据学习中有很多重要代码,这里我会给出一些基本的代码示例,这些示例涵盖了数据学习中的关键步骤:
导入必要的库:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
读取数据:
# 使用Pandas读取CSV文件
df = pd.read_csv('data.csv')
数据清洗:
# 删除含有缺失值的行
df = df.dropna()
# 填充缺失值
df = df.fillna(method='ffill') # 前向填充
数据探索:
# 查看数据的前几行
print(df.head())
# 绘制数据的分布图
plt.hist(df['column_name'])
plt.show()
特征工程:
# 创建新特征
df['new_feature'] = df['feature1'] * df['feature2']
划分数据集:
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df[['feature1', 'feature2']], df['target'], test_size=0.2, random_state=42)
模型训练:
# 创建线性回归模型并训练
model = LinearRegression()
model.fit(X_train, y_train)
模型评估:
# 预测测试集结果
y_pred = model.predict(X_test)
# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')
模型部署:
# 假设你已经有一个训练好的模型,现在需要对新数据进行预测
new_data = np.array([[value1, value2]]) # 替换为新数据
predictions = model.predict(new_data)
print(f'Predictions: {predictions}')
请注意,这些代码只是示例,具体实现时需要根据你的数据和需求进行调整。