数据挖掘竞赛
文章平均质量分 92
百川AI
心怀热爱,奔赴山海
展开
-
时间序列分析之ARIMA上手-Python
概念时间序列 时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。时间序列分析 时间序列分析是根据系统观察得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。时间序列分析常用于国民宏观经济控制、市场潜力预测、气象预测、农作物害虫灾害预报等各个方面。组成要素构成要素:长期趋势,季节原创 2017-05-23 21:49:24 · 42728 阅读 · 17 评论 -
『 论文阅读』XGBoost原理-XGBoost A Scalable Tree Boosting System
ABSTRACT1. INTRODUCTIONContributions2. TREE BOOSTING IN A NUTSHELL2.1 Regularized Learning Objective2.2 Gradient Tree Boosting2.3 Shrinkage and Column Subsampling3. SPLIT FINDING ALGORITH...原创 2017-08-03 16:27:04 · 1022 阅读 · 0 评论 -
XGBoost A Scalable Tree Boosting System
目录ABSTRACT1. INTRODUCTIONContributions2. TREE BOOSTING IN A NUTSHELL2.1 Regularized Learning Objective2.2 Gradient Tree BoostingReference看了LightGBM的论文之后,在从头看XGBoost论文,之前虽然看过,现在对比看的时候又有原创 2017-05-10 10:12:36 · 596 阅读 · 1 评论 -
GBDT原理及利用GBDT构造新的特征-Python实现
看了许多GBDT构建特征的资料整理而成,具体资料见Reference。背景1 Gradient Boosting2 Gradient Boosting Decision Tree3 GBDT应用-回归和分类GBDT构建新的特征思想GBDT与LR融合方案源码内容generate GBDT featuresgenerate features for FFMPython原创 2017-05-12 11:41:26 · 66851 阅读 · 15 评论 -
『 天池竞赛』商场中精确定位用户所在商铺思路总结
赛题数据与评价方式解决方案1 数据划分2 预处理3 构造候选4 二分类预测特征wifi特征距离特征用户商店特征算法模型模型融合感想1 赛题本赛题目标为在商场内精确的定位用户当前所在商铺。给出的信息包括wifi信号强度、GPS、基站定位、历史交易,来确定测试集交易发生的店铺。我们队伍是我去,咋回事(出门向右 、东风西风读书屋 、wakup原创 2018-01-22 16:26:40 · 4003 阅读 · 12 评论 -
『 天池竞赛』O2O优惠券使用预测思路总结
赛题地址:https://tianchi.shuju.aliyun.com/competition/introduction.htm?spm=5176.100065.200879.2.6r6s4g&raceId=231587第一赛季数据目录数据与评价方式解决方案数据划分特征工程算法及模型融合模型融合应用线下评估回顾正式开始做是从十月底开始的,我原创 2017-01-03 16:36:39 · 42639 阅读 · 45 评论 -
XGBoost-参数解释
英文原文:Python>http://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/转载来自链接:http://blog.csdn.NET/zc02051126/article/details/46711047XGBoost转载 2017-05-31 17:27:54 · 980 阅读 · 0 评论 -
Ensemble Learning-基于集成学习的模型融合-Python实现
模型融合常用方法。1 Voting2 Averaging3 Ranking4 Binning5 Bagging6 Boosting7 Stacking8 Blending原创 2017-07-16 19:08:36 · 39887 阅读 · 11 评论 -
Kaggle 数据挖掘比赛经验分享
kaggle历期比赛解决方案汇总 - 简介Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜转载 2017-05-10 10:29:36 · 4588 阅读 · 1 评论 -
『 kaggle』kaggle-DATA-SCIENCE-BOWL-2018(U-net方法)
1. 赛题背景通过自动化细胞核检测,有利于检测细胞对各种治疗方法的反应,了解潜在生物学过程。队伍需要分析数据观察模式,抽象出问题并通过建立计算机模型识别各种条件下的一系列细胞核。2. 数据预处理数据分析数据集包含部分的分割核图像。由于其获取方式、细胞类型、放大倍数和呈现模式不同(brightfield vs. fluorescence),对算法的抽象概括能力较高。对于每...原创 2018-04-26 19:12:55 · 6988 阅读 · 7 评论