python打卡day22@浙大疏锦行

最新推荐文章于 2025-05-13 15:38:47 发布

风逸hhh

最新推荐文章于 2025-05-13 15:38:47 发布

阅读量298

点赞数

分类专栏： python打卡60天行动文章标签： python 开发语言

本文链接：https://blog.csdn.net/2301_82134064/article/details/147880311

版权

python打卡60天行动专栏收录该内容

23 篇文章

订阅专栏

复习日

仔细回顾一下之前21天的内容，没跟上进度的同学补一下进度。

作业：

自行学习参考如何使用kaggle平台，写下使用注意点，并对下述比赛提交代码

一、数据预处理

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as sns  
import warnings
from sklearn.model_selection import train_test_split
warnings.filterwarnings("ignore")
plt.rcParams['font.sans-serif'] = ['SimHei']  
plt.rcParams['axes.unicode_minus'] = False  
data = pd.read_csv('./day22/train.csv')
print(data.info())
print(data.isnull().sum())
for i in data.columns:
    if data[i].isnull().sum() > 0:
        if pd.api.types.is_numeric_dtype(data[i]):
            median_val = data[i].median()
            data[i].fillna(median_val, inplace=True)
            print(f"用中位数 {median_val} 填补列：{i}")
        else:
            zhongshu = data[i].mode()[0]
            data[i].fillna(zhongshu, inplace=True)
            print(f"用众数{zhongshu} 填补列：{i}")
 
data = data.drop(columns=['Name','Ticket', 'Cabin'])
print(data.info())
print(data.isnull().sum())
 
data = pd.get_dummies(data, columns=['Embarked'])
data2 = pd.read_csv('./day22/train.csv') 
list_final = []  
for i in data.columns:
    if i not in data2.columns:
        list_final.append(i)  
for i in list_final:
    data[i] = data[i].astype(int)  
 
sex_mapping = {
    'male': 1,
    'female': 0,
}
data['Sex'] = data['Sex'].map(sex_mapping)
print(data.info())
print(data.isnull().sum())

二、利用随机森林模型进行训练和验证

from sklearn.model_selection import train_test_split
 
X = data.drop(['Survived'], axis=1)  
y = data['Survived']  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape) # (1382, 6) (346, 6) (1382,) (346,)
 
import numpy as np 
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import StratifiedKFold, cross_validate 
from sklearn.metrics import make_scorer, accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
import time
import warnings
warnings.filterwarnings("ignore")
warnings.filterwarnings("ignore") 
print("--- 1. 默认参数随机森林 (训练集 -> 测试集) ---")
import time 
start_time = time.time() 
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train) 
rf_pred = rf_model.predict(X_test) 
end_time = time.time()
 
print(f"训练与预测耗时: {end_time - start_time:.4f} 秒")
print("\n默认随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred))
print("默认随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred))
 
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=42)
X_train_smote, y_train_smote = smote.fit_resample(X_train, y_train)
 
print("SMOTE过采样后训练集的形状：", X_train_smote.shape, y_train_smote.shape)
 
print("--- 2. 带权重随机森林 + 交叉验证 (在训练集上进行) ---")
 
counts = np.bincount(y_train)
minority_label = np.argmin(counts) 
majority_label = np.argmax(counts)
print(f"训练集中各类别数量: {counts}")
print(f"少数类标签: {minority_label}, 多数类标签: {majority_label}")

rf_model_weighted = RandomForestClassifier(
    random_state=42,
    class_weight='balanced'  
    # class_weight={minority_label: 10, majority_label: 1} 
 
cv_strategy = StratifiedKFold(n_splits=5, shuffle=True, random_state=42) 
scoring = {
    'accuracy': 'accuracy',
    'precision_minority': make_scorer(precision_score, average='macro', zero_division=0),
    'recall_minority': make_scorer(recall_score, average='macro'),
    'f1_minority': make_scorer(f1_score, average='macro')
}
print(f"开始进行 {cv_strategy.get_n_splits()} 折交叉验证...")
start_time_cv = time.time()
 
cv_results = cross_validate(
    estimator=rf_model_weighted,
    X=X_train_smote,
    y=y_train_smote,
    cv=cv_strategy,
    scoring=scoring,
    n_jobs=-1, 
    return_train_score=False 
)
 
end_time_cv = time.time()
print(f"交叉验证耗时: {end_time_cv - start_time_cv:.4f} 秒")
 
print("\n带权重随机森林 交叉验证平均性能 (基于训练集划分)：")
for metric_name, scores in cv_results.items():
    if metric_name.startswith('test_'): 
        clean_metric_name = metric_name.split('test_')[1]
        print(f"  平均 {clean_metric_name}: {np.mean(scores):.4f} (+/- {np.std(scores):.4f})")
 
print("-" * 50)
 
 
print("--- 3. 训练最终的带权重模型 (整个训练集) 并在测试集上评估 ---")
start_time_final = time.time()
rf_model_weighted_final = RandomForestClassifier(
    random_state=42,
    class_weight='balanced'
)
rf_model_weighted_final.fit(X_train_smote, y_train_smote) 
rf_pred_weighted = rf_model_weighted_final.predict(X_test) 
end_time_final = time.time()
 
print(f"最终带权重模型训练与预测耗时: {end_time_final - start_time_final:.4f} 秒")
print("\n带权重随机森林 在测试集上的分类报告：")
print(classification_report(y_test, rf_pred_weighted)) 
print("带权重随机森林 在测试集上的混淆矩阵：")
print(confusion_matrix(y_test, rf_pred_weighted))
print("-" * 50)
 
print("性能对比 (测试集上的少数类召回率 Recall):")
recall_default = recall_score(y_test, rf_pred, average='macro')
recall_weighted = recall_score(y_test, rf_pred_weighted, average='macro')
print(f"  默认模型: {recall_default:.4f}")
print(f"  带权重模型: {recall_weighted:.4f}")

三、导入测试集并对数据测试

test_data = pd.read_csv('./day22/test.csv')
for i in test_data.columns:
    if test_data[i].isnull().sum() > 0:
        if pd.api.types.is_numeric_dtype(test_data[i]):
            median_val = test_data[i].median()
            test_data[i].fillna(median_val, inplace=True)
            print(f"用中位数 {median_val} 填补列：{i}")
        else:
            zhongshu = test_data[i].mode()[0]
            test_data[i].fillna(zhongshu, inplace=True)
            print(f"用众数{zhongshu} 填补列：{i}")
 
test_data = test_data.drop(columns=['Name','Ticket', 'Cabin'])
 
 
test_data = pd.get_dummies(test_data, columns=['Embarked'])
data2 = pd.read_csv('./day22/test.csv') 
list_final = []  
for i in test_data.columns:
    if i not in data2.columns:
        list_final.append(i)  
for i in list_final:
    test_data[i] = test_data[i].astype(int)  
 
sex_mapping = {
    'male': 1,
    'female': 0,
}
test_data['Sex'] = test_data['Sex'].map(sex_mapping)
print(test_data.info())
print(test_data.isnull().sum())

rf_pred_weighted = rf_model_weighted_final.predict(test_data) 
 
output = pd.DataFrame({
    'PassengerId': test_data['PassengerId'],
    'Survived': rf_pred_weighted
})
 
output.to_csv('titanic_predictions.csv', index=False)