自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Kaggle Titanic学习笔记知识点

【代码】Kaggle Titanic学习笔记知识点。

2024-05-22 13:09:16 99 1

原创 Kaggle -Titanic Survival Predictions 2笔记

将训练集和测试集中的Embarked特征映射为数值,S为1,C为2,Q为3。③接下来,遍历训练集和测试集中的年龄组,如果年龄组为"Unknown",则使用对应Title的年龄组进行填充。②然后,定义了一个名为age_title_mapping的字典,其中包含了不同Title对应的年龄组。:用相应的Pclass的平均票价进行填充,将票价映射为数值组,并将其分为四个区间,最后删除Fare列。:将训练集和测试集中的Sex特征映射为数值,male为0,female为1。describe()函数。

2024-05-22 13:02:04 1696 1

原创 读文笔记——kaggle的泰坦尼克生存分析竞赛,为什么很多人预测正确率达到了惊人的100%?

可以在对所有数据进行处理前,用特征工程,模型调参等对模型特征进行选择,降低后续数据处理的复杂程度,以及对比了各种调参模型以及各种编码方法,虽然XGBoost都没提到,但任有可学习的地方,提供了一种辩证思路。:决策边界是模型对样本进行分类的依据。在特征空间中,决策边界将基础向量空间划分为两个或多个集合,分类器根据样本点相对于决策边界的位置,将样本点分类到不同的集合中,即属于不同的类别。:目标编码能够将离散属性的每个类别编码为其在目标变量上的统计信息(如平均值),这有助于捕获类别特征与目标变量之间的潜在关系。

2024-05-22 13:01:29 1315

原创 Titanic Kaggle学习笔记

本文的运行环境为Kaggle上的notebook。已经经过了测试。大量与以上链接重复的代码是为了解决因Python版本更迭导致部分代码报错的问题,此版代码有助于新手学习。如果有侵权请及时与我联系,我会及时删除。此外,本文还对这些代码中的一些知识进行了总结。

2024-05-22 13:00:44 641 1

原创 如何开始Kaggle

Kaggle是全球最大的数据科学平台。其中比赛含金量很高。笔者与小伙伴们刚开始进行Kaggle,遇到了一些问题,于是写出这篇文章,以帮助读者避免我们遇到过的问题。

2024-05-09 17:02:08 1482 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除