![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kaggle
水木流年追梦
清华大学计算机研究生,专研算法工程
展开
-
Kaggle上8个非常适合新人的项目
从3W+项目中,为大家挑选了这8个: 零项目经验的同学建议从Compete-Get Started级别开始。 网上也有很多优秀的Kaggle数据集的分析项目,如果不知道如何入手,可以查看Kernel部分别人共享的Tutorials,或者自行Google,从借鉴别人的优秀经 验开始。 适合新人的Kaggle项目1、Hotel booking demand酒店预订需求 www.kaggle.com/jessemostipak/hotel-booking-demand该数据集包含城市酒店和度假酒店的预订信原创 2020-07-16 20:21:50 · 8787 阅读 · 2 评论 -
Kaggle竞赛宝典方案汇总
kaggle竞赛宝典公众号建立的初衷是希望将很多经典比赛的方案写成案例的形式,每个步骤都配有一定的阐述,讲述某些操作为什么有效等,希望可以帮助更多的新手快速入门(太多的开源只有代码,看代码的时间是巨大的,复现的代价也是很大的,而且很多操作也不一定有效)。到目前为止,kaggle竞赛宝典已经有9个kaggle的到银牌的案例,以及10+个国内竞赛的案例,此处将这些案例以及对应的链接一起汇总在下方,方便...转载 2020-04-11 17:30:06 · 854 阅读 · 1 评论 -
kaggle房价预测(House Prices: Advanced Regression Techniques)详解
这几天做kaggle上的房价预测题目,有一些需要记录的点。1.当数据是skew的时候需要进行log操作,比如这里的房价之后可以把所有偏度大于一个阈值的都log化,至于偏度相关的知识,请看https://blog.csdn.net/qq_32146369/article/details/894051642.类别向量向量化类似于变成3.可以用平均值把空缺处填满...原创 2019-04-20 22:55:19 · 2824 阅读 · 1 评论 -
kaggle中的房价预测的一些数据分析方法详解
1.查看某些属性值与预测标签值的关联度可以看出属性GrLivArea与SalePrice基本是正相关的关系。TotalBsmtSF的系数比上一个更大一些2.查看类别属性与salesprice的关系可以看出,overallQual的类别数越大,saleprice也明显越高虽然无法完全看出关系,但可以看出salesprice随着年份越新,售价存在逐渐提高的现象...原创 2019-04-23 17:25:17 · 2055 阅读 · 0 评论 -
偏度
偏度公式如下:现在想解决如何从图像上解决为正为负的问题,如图所示:个人理解:偏度中的偏是针对变量相对于中心点(期望值)距离的一种描述;如果厚尾的话,就说明有很多点距离中心点比较远,如上图中的负偏度如果不看厚尾,仅看靠近中心点的两侧,很显然右侧相对左侧,更多的点集中在中心点附近,换句话说,左侧更多的点集中在更远更偏的地方;通过三阶中心矩公式,左侧计算的偏离程度均为负值,大于右侧计算...原创 2019-04-19 17:43:11 · 4176 阅读 · 0 评论