
数据挖掘竞赛
汪雯琦
产品经理·Python·数据分析·数据挖掘·机器学习·人工智能
-
原创 【我的数据挖掘竞赛之旅(二)】二手车交易价格预测——2020年天池阿里云竞赛Task5模型融合
文章目录模型融合是什么模型融合的类型Stacking相关理论本次比赛的代码stacking融合(回归)分类模型的融合模型融合是什么我理解的Kaggle比赛中提高成绩主要有3个地方特征工程调参模型融合模型融合是kaggle等比赛中经常使用到的一个利器,它通常可以在各种不同的机器学习任务中使结果获得提升。顾名思义,模型融合就是综合考虑不同模型的情况,并将它们的结果融合到一起。模型融合主...2020-04-04 21:10:33646
0
-
原创 【我的数据挖掘竞赛之旅(二)】二手车交易价格预测——2020年天池阿里云竞赛Task4建模调参
文章目录5.1 学习目标5.2 内容介绍5.3 相关原理介绍与推荐5.3.1 线性回归模型5.3.2 决策树模型5.3.3 GBDT模型5.3.4 XGBoost模型5.3.5 LightGBM模型5.3.6 推荐教材:5.4 代码示例5.4.1 读取数据5.4.2 线性回归 & 五折交叉验证 & 模拟真实业务情况5.4.2 - 1 简单建模5.4.2 - 2 五折交叉验证5.4....2020-04-04 21:16:21375
1
-
原创 【我的数据挖掘竞赛之旅(二)】二手车交易价格预测——2020年天池阿里云竞赛Task3特征工程
特征工程总览文章目录特征工程总览一、特征工程目标二、内容介绍2.1 常见的特征工程三、代码示例3.1 导入模块和包3.2 导入数据3.3 查看数据的基本情况3.4 删除异常值3.5 特征构造3.6 特征筛选(1)过滤式(2)包裹式(3)嵌入式四、经验总结一、特征工程目标对于特征进行进一步分析,并对于数据进行处理-完成对于特征工程的分析,并对于数据进行一些图表或者文字总结二、内容介绍...2020-03-26 22:25:30775
0
-
原创 python封装的异常值处理函数(包括箱线图去除异常值等)
# 这里我包装了一个异常值处理的代码,可以随便调用。def outliers_proc(data, col_name, scale=3): """ 用于清洗异常值,默认用 box_plot(scale=3)进行清洗 :param data: 接收 pandas 数据格式 :param col_name: pandas 列名 :param scale: 尺度...2020-03-26 11:11:083956
3
-
原创 【我的数据挖掘竞赛之旅(二)】二手车交易价格预测——2020年天池阿里云竞赛Task2数据分析
Datawhale 零基础入门数据挖掘-Task2 数据分析文章目录Datawhale 零基础入门数据挖掘-Task2 数据分析二、 EDA-数据探索性分析2.1 EDA目标2.2 内容介绍2.3 代码示例2.3.1 载入各种数据科学以及可视化库2.3.2 载入数据所有特征集均脱敏处理(方便大家观看)2.3.3 总览数据概况2.3.4 判断数据缺失和异常2) 查看异常值检测2.3.5 了解预测...2020-03-24 21:30:03395
0
-
原创 【我的数据挖掘竞赛之旅(二)】二手车交易价格预测——2020年天池阿里云竞赛Task1赛题理解
Datawhale 零基础入门数据挖掘-Task1 赛题理解文章目录Datawhale 零基础入门数据挖掘-Task1 赛题理解一、 赛题理解1.1 学习目标1.2 了解赛题1.2.1 赛题概况1.2.2 数据概况1.2.3 预测指标分类算法常见的评估指标如下:对于回归预测类常见的评估指标如下:1.2.4. 分析赛题1.3 代码示例1.3.1 数据读取pandas1.3.2 分类指标评价计算示例...2020-03-24 21:13:44453
0
-
原创 【天池、京东算法大赛、Kaggle等机器学习打比赛模板】
这里先整理一个宏观的比赛模板。这个模板可以适用于数据分析比赛或者项目。2020-03-20 12:02:25944
3
-
原创 掌握了这个之后,数据挖掘竞赛稳拿top10:利用Sklearn库进行特征工程处理
完整的数据挖掘打比赛模板:https://vicky.blog.csdn.net/article/details/104983889文章目录一、什么是特征工程?特征工程主要分为三部分数据预处理特征选择降维二、数据预处理2.1 无量纲化2.1.1 标准化(也叫Z-score standardization)(对列向量处理)2.1.2 区间缩放(对列向量处理)2.1.3 归一化(对行向量处理)2.3...2020-03-20 11:34:55307
0
-
原创 【我的数据挖掘竞赛之旅(一)】快手活跃用户预测——2018中国高校计算机大赛第三届之大数据挑战赛(Big Data Challenge)
文章目录大赛全称地址一、任务目标与数据分析1.数据集介绍2.数据集说明3.读取数据并命名列名4.查看每个数据集的前五行(1)注册日志注册日志说明(2)APP启动日志APP启动日志说明(3)拍摄日志拍摄日志说明(4)行为日志行为日志说明二、整体模型架构三、构建用户特征序列四、序列特征提取方法1.登陆信息五、生成特征汇总表2.创作视频信息3.用户使用时的行为特征4.产生行为的界面信息5.观看其他用户作...2020-03-19 23:40:12714
1