Kaggle房价预测-Lasso线性规划代入学习

最新推荐文章于 2024-07-23 13:00:29 发布

RainStarX

最新推荐文章于 2024-07-23 13:00:29 发布

阅读量1.7k

点赞数 1

分类专栏：机器学习文章标签： kaggle 房价预测理解学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013166171/article/details/79534012

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

https://www.kaggle.com/apapiu/regularized-linear-models

本次学习的是这个房价预测一个高赞的kernel，使用了线性规划得到了类似Xgboost模型的效果(同样给了Xgboost的方法，并说神经网络的效果不是特别好)，并给出了详细的步骤，具体的代码可以打开网站学习，这里简要记叙一下所应用方法的思路。

可阅读

xgboost 算法原理

来自 <http://blog.csdn.net/a1b2c3d4123456/article/details/52849091>

作者Alexandru具体方法如下：

1. 将测试级和训练集的数据统一做数据处理。通过代码

train.head()

获得对应数据

2. 数据处理，主要是将偏态分布的数据通过log(x+1)(+1是log取零不行)

skewed_feats= train[numeric_feats].apply(lambda x: skew(x.dropna())) #compute skewness
skewed_feats = skewed_feats[skewed_feats > 0.75]
skewed_feats = skewed_feats.index
同样，对于数据偏态超过0.75的，同样做log处理，保证正态性。

对于缺失值，直接用普遍平均值补全，用测试集同样处理是个好方法（或能更符合普遍规律并补全测试集）

对于无序离散值，全部使用one-hot

为了符合模型的优化速度要求做了归一化

3. 模型目标函数使用了ridge 和lasso两种回归，对于超参数入通过测试出平方差和最小的，

可阅读

线性模型（三）－－ridge、lasso、ElasticNet回归

来自<http://blog.csdn.net/fleurdalis/article/details/55059516>

最后得出lasso效果最好，同时由于lasso模型本身的优点，可以通过0值去除掉许多不影响的高位变量，并获得变量权重。

最后得到预测值和结果值的残差（不太理解用什么结果值怎么得，或许是交叉验证法，横坐标应该是因为log后所以是十几这样）

4. 接着作者尝试了xgboost，想用此来提升分数，在两种方案的对比中，似乎效果差别不大。但还是一些偏差较大点。

很多时候对不相关的结果进行加权平均很有意义 - 这通常会影响分数，尽管在这种情况下它并没有太大的帮助。（集成学习原理中集成不相关且预测准确率超过0.5的模型，会得到比最差模型好的效果，加权效果好时可以超过所有单个模型）

于是取了个加权平均，以此获得最终结果。

preds= 0.7*lasso_preds + 0.3*xgb_preds

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。