房产租金预测
weixin_43559291
这个作者很懒,什么都没留下…
展开
-
数据竞赛(五)-模型融合
sklearn 交叉验证 K折交叉验证: sklearn.model_selection.KFold(n_splits=3, shuffle=False, random_state=None) 思路:将训练/测试数据集划分n_splits个互斥子集,每次用其中一个子集当作验证集,剩下的n_splits-1个作为训练集,进行n_splits次训练和测试,得到n_splits个结果 注意点:对于不能均...原创 2020-01-19 19:19:24 · 256 阅读 · 0 评论 -
数据竞赛(四)-模型选择
使用lightGBM为例,相对于XGBoost算法,降低了运行速度。 Lightgbm基本原理介绍 具体代码展示: from __future__ import print_function import lightgbm as lgb import sklearn import numpy import hyperopt from hyperopt import hp, fmin, tpe, S...原创 2020-01-16 07:06:34 · 305 阅读 · 0 评论 -
数据竞赛(三)-- 特征工程
特征工程的构建 参考资料:竞赛专题(四)特征工程-竞赛中的必杀技 特征合并: 希望能够用少的特征能表现出正确的事物类型。主要根据现实经验来进行处理。对不同的问题有不同的处理方法。 下面为详细代码: def newfeature(data): # 将houseType转为'Room','Hall','Bath' def Room(x): Room = int(x....原创 2020-01-12 19:02:35 · 286 阅读 · 0 评论 -
数据竞赛(二)-数据清洗
缺失值分析及处理 缺失值出现的原因分析 采取合适的方式对缺失值进行填充 异常值分析及处理 根据测试集数据的分布处理训练集的数据分布 使用合适的方法找出异常值 对异常值进行处理 深度清洗 分析每一个communityName、city、region、plate的数据分布并对其进行数据清洗 参考资料: 一文带你探索性数据分析(EDA) 分割线正文 主要思路分析 虽然这步骤是缺失值处理,但...原创 2020-01-09 19:03:09 · 443 阅读 · 0 评论 -
2019未来杯高校AI挑战赛 > 城市-房产租金预测(第一部分赛题分析和对数据做EDA)
赛题说明 认识数据(赛题说明) 了解比赛的背景(比赛要求选手根据给定数据集,建立模型,预测房屋租金) 分类问题还是回归问题(租金是个连续值,所以是回归问题) 熟悉比赛的评分函数: 对比赛数据做EDA 数据分析 缺失值分析(有缺失值的话要进行补充,比如用中位数、众数) 特征值分析(看看有没有异常值等等) 是否有单调特征列(单调的特征列很大可能是时间) 特征nunique分布 出现在测试集中...原创 2020-01-07 20:25:37 · 725 阅读 · 0 评论