Kaggle竞赛：Titianic——随机森林(8.4)

最新推荐文章于 2022-10-31 23:08:25 发布

Wan7777777

最新推荐文章于 2022-10-31 23:08:25 发布

阅读量263

点赞数

分类专栏： kaggle实战文章标签： python kaggle 机器学习

本文链接：https://blog.csdn.net/Wan7777777/article/details/119392893

版权

kaggle实战专栏收录该内容

3 篇文章 2 订阅

订阅专栏

参考资料

知识点——遍历目录和文件

获取当前文件夹下面的所有文件（不含文件夹）

import os
# os.walk("name")中的"name"为当前工作目录下的文件夹的名字！
for curDir, dirs, files in os.walk(".idea"):
    for file in files:
        print(os.path.join(curDir, file))
# curDir表示当前文件夹的目录，dirs表示子文件夹，files表示文件

获取当前文件夹下的所有子文件夹和文件

import os
# 扫描文件夹下的所有子目录和文件
for curDir, dirs, files in os.walk(".idea"):
    print("====================")
    print("现在的目录：" + curDir)
    print("该目录下包含的子目录：" + str(dirs))
    print("该目录下包含的文件：" + str(files))

import os
# 自底向上扫描该文件夹下的目录
for curDir, dirs, files in os.walk(".idea", topdown=False):
    print("====================")
    print("现在的目录：" + curDir)
    print("该目录下包含的子目录：" + str(dirs))
    print("该目录下包含的文件：" + str(files))

获取特定后缀（如.txt）的文件

# 使用os.walk输出某个特定后缀(比如.txt)的文件
import os

for curDir, dirs, files in os.walk(".idea"):
    for file in files:
        if file.endswith(".txt"):
            print(os.path.join(curDir, file))

获取所有子文件夹的名字

# 使用os.walk输出所有的文件夹名字
import os
for curDir, dirs, files in os.walk(".idea"):
    for dir in dirs:
        print(dir)

1. 导入包

import numpy as np  # 处理矩阵
import pandas as pd  # 数据处理、导入导出

2. 读入数据

train = pd.read_csv('E:/【桌面】/titanic/train.csv')
test = pd.read_csv('E:/【桌面】/titanic/test.csv')

3. 查看前5行数据

print(train.head())
print(test.head())

4. EDA：筛选特定值和某个列

多少女士获救？

women = train.loc[train.Sex == 'female']['Survived']
# 选取性别为female的所有列，再筛选其中的一列“Survived”
# print(women)
rate_women = sum(women)/len(women)
# 获救为1，死为0。可得获救占比
print(rate_women)

多少男士获救？

man = train.loc[train.Sex == 'male']['Survived']
rate_man = sum(man)/len(man)
print(rate_man)

5. 分类变量转化为哑变量

features = ["Pclass", "Sex", "SibSp", "Parch"]
# 筛选出分类变量用来建模
X = pd.get_dummies(train[features])
# 把分类变量转化为哑变量
X_test = pd.get_dummies(test[features])
# 测试集同理
print(X_test)

6. 随机森林

from sklearn.ensemble import RandomForestClassifier
y = train["Survived"]
# 获取模型拟合的Y
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
# n_estimators 随机森林中树的数量
# max_depth 树的最大深度
# random_state 类似随机种子，每次构建的模型是相同的，生成的数据集是相同的，每次拆分的结果也是相同的
model.fit(X, y)

7. 预测

predictions = model.predict(X_test)
# 导入测试集的X，得到Y
# 这时的Y是一个列表，没有列名
print(predictions)

8. 导出

output = pd.DataFrame({'PassengerId': test.PassengerId, 'Survived': predictions})
# 调整输出格式，左列为测试集的ID，右列为预测的值，把字典转化为dataframe
output.to_csv('my_submission_RandomForest.csv', index=False)
# 输出为csv
print("Your submission was successfully saved!")

随机森林全文代码

# 1.导入包
import numpy as np  # 处理矩阵
import pandas as pd  # 数据处理、导入导出

# import os
# # os.walk("name")为当前工作目录下的文件夹的名字！
# for curDir, dirs, files in os.walk(".idea"):
#     for file in files:
#         print(os.path.join(curDir, file))
# # curDir表示当前目录，dirs表示包含子目录，files表示文件
# # 获取当前目录下的所有文件
#
# import os
# # 扫描文件夹下的所有子目录和文件
# for curDir, dirs, files in os.walk(".idea"):
#     print("====================")
#     print("现在的目录：" + curDir)
#     print("该目录下包含的子目录：" + str(dirs))
#     print("该目录下包含的文件：" + str(files))
#
# import os
# # 自底向上扫描该文件夹下的目录
# for curDir, dirs, files in os.walk(".idea", topdown=False):
#     print("====================")
#     print("现在的目录：" + curDir)
#     print("该目录下包含的子目录：" + str(dirs))
#     print("该目录下包含的文件：" + str(files))
#
#
# # 使用os.walk输出某个特定后缀(比如.txt)的文件
# import os
#
# for curDir, dirs, files in os.walk(".idea"):
#     for file in files:
#         if file.endswith(".txt"):
#             print(os.path.join(curDir, file))
#
# # 使用os.walk输出所有的文件夹名字
# import os
# for curDir, dirs, files in os.walk(".idea"):
#     for dir in dirs:
#         print(dir)

# 2.读入数据
train = pd.read_csv('E:/【桌面】/titanic/train.csv')
test = pd.read_csv('E:/【桌面】/titanic/test.csv')

# 3.查看前六行
# print(train.head())
# print(test.head())

# 4.EDA筛选特定列：某列特定值&某个列
# 多少女士获救？
women = train.loc[train.Sex == 'female']['Survived']
# 选取性别为female的所有列，再筛选其中的一列“Survived”
# print(women)
rate_women = sum(women)/len(women)
# 获救为1，死为0。可得获救占比
print(rate_women)
#
# 多少男士获救？
man = train.loc[train.Sex == 'male']['Survived']
rate_man = sum(man)/len(man)
print(rate_man)

# 5.分类变量转化为哑变量
features = ["Pclass", "Sex", "SibSp", "Parch"]
# 筛选出分类变量用来建模
X = pd.get_dummies(train[features])
# 把分类变量转化为哑变量
X_test = pd.get_dummies(test[features])
# 测试集同理
# print(X_test)

# 6.随机森林
from sklearn.ensemble import RandomForestClassifier
y = train["Survived"]
# 获取模型拟合的Y
model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
# n_estimators 随机森林中树的数量
# max_depth 树的最大深度
# random_state 类似随机种子，每次构建的模型是相同的，生成的数据集是相同的，每次拆分的结果也是相同的
model.fit(X, y)

# 7.预测
predictions = model.predict(X_test)
# 导入测试集的X，得到Y
# 这时的Y是一个列表，没有列名
print(predictions)

# 8.导出
output = pd.DataFrame({'PassengerId': test.PassengerId, 'Survived': predictions})
# 调整输出格式，左列为测试集的ID，右列为预测的值，把字典转化为dataframe
output.to_csv('my_submission_RandomForest.csv', index=False)
# 输出为csv
print("Your submission was successfully saved!")