数据(机器学习/深度学习)竞赛平台——Kaggle

这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且了解项目情况的朋友。本文分为两部分介绍Kaggle,Part One简单介绍Kaggle,Part Two将简单介绍正规的竞赛的项目,大家可以针对性的解决感兴趣的题目。

0、一个小推荐~

目前,在kaggle中应用的最广泛的语言就是python, 相较于传统的机器学习算法, 深度学习算法在kaggle比赛产生了巨大的影响,如果大家想要系统的学习和研究python以及在其基础上的常见的机器学习和深度学习框架和工具包, 那么强烈推荐大家学习CSDN开设的:

人工智能在网络领域的应用与实践:

https://edu.csdn.net/course/play/10319?utm_source=sooner

这个课程我实际听了, 老师的讲授水平很好, 条理清晰,思路明确,例子丰富, 非常值得大家学习借鉴, 在此强烈推荐一波, 让我们一起学习进步~

ps: 如果想要系统学习python的朋友,下面这门课是涵盖了python基础语法、web开发、数据挖掘以及机器学习,是CSDN强力推荐的课程,有需要的朋友可以看看哈:

Python全栈工程师:

https://edu.csdn.net/topic/python115?utm_source=sooner

1、Kaggle简介

Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/

企业或者研究者可以将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案,类似于KDD-CUP(国际知识发现和数据挖掘竞赛)。Kaggle上的参赛者将数据下载下来,分析数据,然后运用机器学习、深度学习、数据挖掘等知识,建立算法模型,解决问题得出结果,最后将结果提交,如果提交的结果符合指标要求(比如logloss,mse等)并且在参赛者中排名第一,将获得比赛丰厚的奖金(都是以美元为单位哦!)。

下面以图文的形式介绍Kaggle:

这里写图片描述
Kaggle的正规项目分为四类,
分别是:FeaturedResearchRecruitmentGetting Started。下面,分别介绍

Featured

Featured译为“号召”,召集数据科学高手去参赛,这里面的竞赛平均难度是比较高的,而且项目涉及到的大部分是企业或政府的实际需求。
这里写图片描述
目前这类项目有129个,为正式的Kaggle项目比例最大的一部分。

Research
香蕉黄对应的是Research,奖金少一点。这个类别的比赛和Featured一样,是有奖竞赛,难度自然不小,作为入门者,可以先做做练习赛(Getting Started)
这里写图片描述

Recruitment
Recruitment是一些顶尖的公司用于招聘数据科学家来帮助公司解决难题的。这些公司(如Facebook、Airbnb等)会提出一些问题,来考察各路大神的算法和解决方案的可行性,最终给出工作offer。这一块着重是对于尖端数据科学人才的考验。
这里写图片描述

Getting Started
Getting Started是入门赛,最典型的是大家应该都听过的
Titanic: Machine Learning from Disaster泰坦尼克号预测乘客死亡情况
这里写图片描述

2、Kaggle各类项目简介

本节以最主要的两类项目为例进行分析,其他类别(Getting Started,Recruitment等)的项目分析如有需要,可以联系我qq。

Featured

Featured以最近两年的项目(30个)进行分析,大家可以选择自己感兴趣去实际做一下,或者使用别人的kernel来调整。
这里写图片描述
这里写图片描述

Zillow Prize: Zillow’s Home Value Prediction (Zestimate)

这里写图片描述
问题目标:预测加州三郡(LA Orange Ventura)未来某个时间段内的房屋价格
问题类型:回归问题(Regression);时间序列分析;特征工程
问题特点:考虑影响房价的因素,并根据时间段做时间序列分析;可以使用Xgboost或LightGBM框架来做。

Passenger Screening Algorithm Challenge

这里写图片描述
问题目标:提升美国国土安全部(DHS)的威胁评估算法
问题类型:分类问题(Classification);监督学习
问题特点:机场安检的威胁评估算法,考虑的数据量很大,而且要求保证算法的速度。

Carvana Image Masking Challenge
这里写图片描述
问题目标:自动识别图片中汽车的边界
问题类型:计算机视觉(CV)
问题特点:边界处理,模型提取。

Instacart Market Basket Analysis
这里写图片描述
问题目标:预测Instacart的客户将会再次购买的产品
问题类型:推荐系统 (Recommendation System)
问题特点:根据用户行为建模,预测出跟用户相性好的产品。

Planet: Understanding the Amazon from Space
这里写图片描述
问题目标:根据卫星数据预测人类在亚马逊雨林的足迹
问题类型:计算机视觉(CV);时间序列分析(Time-Series Analysis);动态规划(DP)
问题特点:非常综合的问题,即涉及到图像处理,又与图算法有关。

Mercedes-Benz Greener Manufacturing
这里写图片描述
问题目标:优化奔驰车在测试时的时间
问题类型:回归问题(Regression);模式识别(Pattern Recognition)
问题特点:维度灾难(curse of dimensionality)

Sberbank Russian Housing Market
这里写图片描述
问题目标:预测俄罗斯的房地产市场波动情况
问题类型:回归问题(Regression)
问题特点:多层次的特征,不仅限于房屋状况,还与国内经济状况有关的特征,综合分析。

NOAA Fisheries Steller Sea Lion Population Count
这里写图片描述
问题目标:根据航拍图像内容,研究算法分析图片中有几个海狮
问题类型:计算机视觉(CV);模式识别(Pattern Recognition)
问题特点:典型的计算机视觉和边界识别的综合问题。

Intel & MobileODT Cervical Cancer Screening
这里写图片描述
问题目标:预测女性宫颈癌类别
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:图像识别,确定宫颈癌类别。

Quora Question Pairs
这里写图片描述

问题目标:根据问题内容,定位已经被回答过的类似问题
问题类型:聚类(Cluster);自然语言处理(NLP)
问题特点:避免用户问重复的问题,也节省答题人的时间。

Google Cloud & YouTube-8M Video Understanding Challenge
这里写图片描述
问题目标:训练一个分类器,为视频做标签
问题类型:分类问题(Classification);深度学习(DL)
问题特点:噪声数据;主特征提取

The Nature Conservancy Fisheries Monitoring

这里写图片描述
问题目标:根据视频内容,识别鱼的种类
问题类型: 计算机视觉(CV);分类问题(Classification);深度学习(DL)
问题特点:模式识别加上Deep Learning的内容。

Data Science Bowl 2017

这里写图片描述
问题目标:提高肺癌预测的准确性
问题类型: 计算机视觉(CV);模型识别(Pattern Recognition);分类问题(Classification)
问题特点:根据高分辨率的肺部扫描精准判断病变是否为癌变。

Dstl Satellite Imagery Feature Detection

这里写图片描述
问题目标:从高空图像中准确辨别各种特征
问题类型:计算机视觉(CV);深度学习(DL)
问题特点:根据卫星图像对地球上的物体进行识别。

Two Sigma Financial Modeling Challenge

这里写图片描述
问题目标:预测未来经济走势(只要算法)
问题类型: 算法(Algorithms)
问题特点: 根据世界的不确定性,科学预测未来的经济发展和机会。

Outbrain Click Prediction

这里写图片描述
问题目标: 预测文章的哪部分是全球读者更喜欢的(有意愿点击的)
问题类型: 推荐系统(Recommendation System);自然语言处理(NLP)
问题特点: 文本相似度分析,新闻热度分析。

Santander Product Recommendation

这里写图片描述
问题目标:为Santander用户推荐产品
问题类型:推荐系统(Recommendation System)
问题特点:个性化的产品推荐,依据用户行为建模。

Bosch Production Line Performance

这里写图片描述
问题目标:预测Bosch的内部失败率
问题类型:分类问题(Classification)
问题特点:根据上千种检测手段,预测某批产品失败的可能性。

Predicting Red Hat Business Value

这里写图片描述
问题目标:根据用户的特点和活动情况,分析其对RedHat的商业价值
问题类型:分类问题(Classification)
问题特点:用户价值分析

TalkingData Mobile User Demographics

这里写图片描述
问题目标:根据用户的手机使用情况,地理位置等信息对用户做画像
问题类型:用户画像(User portrait);聚类(Cluster)
问题特点:特征维数多且不同尺度;聚类分析。

Grupo Bimbo Inventory Demand

这里写图片描述
问题目标:宾宝希望最大化销量的同时,减少从烘焙店返还过期未销售的食品
问题类型:动态规划(DP)
问题特点:根据商店的销量情况和返还率,设计每家店的供货分配算法。

Ultrasound Nerve Segmentation

这里写图片描述
问题目标:根据颈部超声图像识别神经结构
问题类型:计算机视觉(CV);分类问题(Classification)
问题特点:根据超声图像自动识别神经结构

State Farm Distracted Driver Detection

这里写图片描述
问题目标:计算机视觉能否发现驾驶员分心?
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:利用视频实时追踪驾驶员,判断驾驶员是否出现注意力不集中的现象。

Avito Duplicate Ads Detection

这里写图片描述
问题目标: 欺骗性、重复性的广告检测
问题类型: 分类问题(Classification);计算机视觉(CV)
问题特点: 相似度分析。

Draper Satellite Image Chronology

这里写图片描述
问题目标: 根据五天的卫星图片,预测卫星图片拍摄的时间顺序
问题类型: 计算机视觉(CV)
问题特点: 需要额外的特征,比如白天和晚上,图片的变化情况等等。

Expedia Hotel Recommendations

这里写图片描述
问题目标: 在用户数据不全的情况下,根据用户的搜索情况,预测用户可以预定的酒店类型(100种)
问题类型: 分类问题(Classification)
问题特点: 数据不全;日志数据分析。

Santander Customer Satisfaction

这里写图片描述
问题目标: 预测银行客户对交易体验的感觉(好/坏)
问题类型: 情感分析;分类问题(Classification)
问题特点: 根据上百维未知的特征,来预测客户的体验,筛选特征的重要程度。
Home Depot Product Search Relevance

这里写图片描述
问题目标: 预测Home Depot网站相关的搜索结果
问题类型: 推荐系统(Recommendation System);聚类(Cluster)
问题特点: 产品相似度分析。

BNP Paribas Cardif Claims Management

这里写图片描述
问题目标: 加速BNP Paribas Cardif公司的出险赔付流程
问题类型: 优化问题
问题特点: 1、什么样的索赔更容易得到赔付?2、索赔所需要的额外信息?

Prudential Life Insurance Assessment

这里写图片描述
问题目标: 简化个人购买保险业务的难度
问题类型: 聚类(Clsuter);非监督学习;NLP
问题特点: 噪声数据;把相似的保险方案归并成一套,供消费者选择,以免消费者懵掉。

Research
这里写图片描述
这里写图片描述

Research的项目进行分析,大家可以选择自己感兴趣去实际做一下,或者使用别人的kernel来调整。

Personalized Medicine: Redefining Cancer Treatment

这里写图片描述
问题目标:根据给定数据,预测基因变种属于哪一类
问题类型:分类问题(Classification);NLP;监督学习
问题特点:对临床数据的处理甚至对专家来说也是复杂和费时的,所以,依据临床数据建立的模型是非常重要的。

Create an image classifier that is robust to adversarial attacksHouse Prices: Advanced Regression Techniques

这里写图片描述
问题目标:针对广告图片稍微变化,就导致分类器分类错误的情况。训练一个鲁棒性强的图片分类器
问题类型:分类问题(Classification);监督学习
问题特点: 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。

Imperceptibly transform images in ways that fool classification models

这里写图片描述
问题目标:将图片的内容转换,争取迷惑分类模型(跟②是一个系列的问题)
问题类型:分类问题(Classification)
问题特点: 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。

Develop an adversarial attack that causes image classifiers to predict a specific target class

这里写图片描述
问题目标:开发一个广告图片攻击工具,目标是使分类器的效果下降
问题类型:分类问题(Classification)
问题特点: 避免在线学习中,被人用差不多的图片进行攻击(作为input训练),从而导致分类器性能严重下降的情况。

Web Traffic Time Series Forecasting

这里写图片描述
问题目标:预测维基百科(Wikipedia)的页面未来的访问情况
问题类型:回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点:典型的时间序列分析问题,需要先验知识。

Fine-grained classification challenge spanning 5,000 species.

这里写图片描述
问题目标:相似生物分类识别
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:大型分类问题;深度学习。

Can you assign accurate description labels to images of apparel products?

这里写图片描述
问题目标:准确的为图片中的明显物品做标注(Label)
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:深度学习的重要应用;标签相似性处理;照片背景不同处理。

Predict seizures in long-term human intracranial EEG recordings

这里写图片描述
问题目标:根据癫痫患者的脑电图,预测其癫痫发作的情况
问题类型:时间序列分析(Time-Series Analysis)
问题特点:典型的时间序列分析问题,推荐对每个癫痫患者的癫痫模式进行建模,从而有针对性的安排人照顾。

How Much Did It Rain? II

这里写图片描述
问题目标:跟How Much Did It Rain?一样,预测降雨量
问题类型:分类问题(Classification);时间序列分析(Time-Series Analysis)
问题特点:将降雨量限定在一定范围内,满足一个范围的话,对应的类设为1。

Right Whale Recognition

这里写图片描述
问题目标:根据航拍照片,预测图片中是否有濒危动物脊美鲸(right whales)
问题类型:分类问题(Classification);计算机视觉(CV)
问题特点:类似于物体检测的情况。

Grasp-and-Lift EEG Detection

这里写图片描述
问题目标:根据EFG信号进行手势识别
问题类型:分类问题(Classification)
问题特点:噪声数据

ECML/PKDD 15: Taxi Trajectory Predictiont’s Cooking?(Ⅰ)

这里写图片描述
问题目标:根据出租车当前运行轨迹,预测其目的地
问题类型: 计算机视觉(CV);动态规划(DP)
问题特点:涉及到图运算和拓扑学的内容

ECML/PKDD 15: Taxi Trip Time Prediction(Ⅱ)

这里写图片描述
问题目标:根据出租车当前运行轨迹,预测本次行程时间
问题类型: 计算机视觉(CV);动态规划(DP);回归问题(Regression)
问题特点:涉及到图运算和拓扑学的内容

15.071x - The Analytics Edge (Spring 2015)

这里写图片描述
问题目标:预测纽约时报哪篇博文最受欢迎
问题类型: 分类问题(Classification)
问题特点:多维度分析

Microsoft Malware Classification Challenge (BIG 2015)

这里写图片描述
问题目标:基于文件内容和特点对恶意软件进行分类
问题类型: 分类问题(Classification)
问题特点:神经网络(NN)

BCI Challenge @ NER 2015

这里写图片描述
问题目标:根据脑波数据预测对应的单词和图像是否对应
问题类型: 分类问题(Classification);FFT(Fast-Fourier analysis)
问题特点:对频域数据进行分析

American Epilepsy Society Seizure Prediction Challenge

这里写图片描述
问题目标:根据颅内EFG信号预测狗的癫痫症状发生情况
问题类型:时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
问题特点:典型的时间序列分析问题,推荐对每只癫痫狗的癫痫模式进行建模,从而有针对性的安排人照顾;频域分析。

Display Advertising Challenge

这里写图片描述
问题目标:预测广告的点击转化率(CTR)
问题类型: 回归问题(Regression)
问题特点:FFM(field-aware factorization machines),即考虑全局情况的分解机技术。效果特别好。

Click-Through Rate Prediction

这里写图片描述
问题目标:预测广告的点击转化率(CTR)
问题类型: 回归问题(Regression)
问题特点:FFM(field-aware factorization machines),即考虑全局情况的分解机技术。效果特别好。

Africa Soil Property Prediction Challenge

这里写图片描述
问题目标:预测土壤的物理化学成分
问题类型: 回归问题(Regression)
问题特点:特征维数多;官方示例是用贝叶斯加性模型做的。

UPenn and Mayo Clinic’s Seizure Detection Challenge

这里写图片描述
问题目标:根据颅内EFG信号预测癫痫症状发生情况
问题类型:时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis)
问题特点:典型的时间序列分析问题,推荐对每只癫痫狗的癫痫模式进行建模,从而有针对性的安排人照顾;频域分析。

DecMeg2014 - Decoding the Human Brain

这里写图片描述
问题目标:预测视觉刺激对人脑活动的影响
问题类型:时间序列分析(Time-Series Analysis);FFT(Fast-Fourier analysis);计算机视觉(CV);二分类问题(Binary Classification)
问题特点:问题㉑的升级版

MLSP 2014 Schizophrenia Classification Challenge

这里写图片描述
问题目标:通过MRI扫描预测是否患有精神分裂症(schizophrenia)
问题类型: 分类问题(Classification);计算机视觉(CV)
问题特点: 利用不同切面的核磁共振图像来进行诊断;多模态分析。

KDD Cup 2014 - Predicting Excitement at DonorsChoose.org

这里写图片描述
问题目标:对慈善项目进行评级,决定是否捐赠
问题类型: 分类问题(Classification)
问题特点: 多维度分析,类似信用评级问题。

Greek Media Monitoring Multilabel Classification (WISE 2014)

这里写图片描述
问题目标:对项目评级,决定是否捐赠
问题类型: 分类问题(Classification);NLP
问题特点: 噪声数据;希腊语。

CONNECTOMICS

这里写图片描述
问题目标:根据1000个神经元的活动情况,判断神经元之前是否有突触连接。
问题类型: 时间序列分析(Time-Series Analysis);计算机视觉(CV)
问题特点: 神经元;树突轴突。

Large Scale Hierarchical Text Classification

这里写图片描述
问题目标: 大规模文本(维基百科)分类问题
问题类型: NLP
问题特点: 可以用LSTM来做。

Galaxy Zoo - The Galaxy Challenge

这里写图片描述
问题目标: 对宇宙中的不同距离的星系的形态进行分类
问题类型: 分类问题(Classification);计算机视觉(CV)
问题特点: 宇宙。

PAKDD 2014 - ASUS Malfunctional Components Prediction

这里写图片描述
问题目标: 预测Asus笔记本未来可能发生故障的部位
问题类型: 分类问题(Classification);
问题特点: 多维度分析(销售时间、销量和修理次数等等)

Loan Default Prediction - Imperial College London

这里写图片描述
问题目标: 构造最优贷款组合(optimal portfolio of loans)
问题类型: 贷款组合;
问题特点: 噪声数据;降维。

Multi-label Bird Species Classification - NIPS 2013

这里写图片描述
问题目标: 根据风声记录预测87类动物(鸟/两栖动物)
问题类型: 语音识别;分类问题(Classification)
问题特点: 声音识别。

Accelerometer Biometric Competition

这里写图片描述
问题目标: 根据加速度记录仪的数据预测其是否属于特定的手机
问题类型: 分类问题(Classification)
问题特点: 手机加速度计数据分析。

AMS 2013-2014 Solar Energy Prediction Contest

这里写图片描述
问题目标: 预测奥克拉荷马每日的太阳能情况
问题类型: 回归问题(Regression)
问题特点: 空间;先验知识。

The Big Data Combine Engineered by BattleFin

这里写图片描述
问题目标: 根据新闻和情感数据分析来预测短期股价的变化
问题类型: 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点: 情感分析;金融数据。

RecSys2013: Yelp Business Rating Prediction

这里写图片描述
问题目标: Yelp商业评分预测
问题类型: 回归问题(Regression);NLP
问题特点: 情感分析;多维度分析。

Multi-modal Gesture Recognition

这里写图片描述
问题目标: 多模态手势识别(2D/3D)
问题类型: 计算机视觉(CV)
问题特点: 卷积神经网络;RGB;降维。

The ICML 2013 Bird Challenge

这里写图片描述
问题目标: 根据语音记录识别鸟的类别
问题类型: 语音识别
问题特点: 频域分析。

Challenges in Representation Learning: Multi-modal Learning

这里写图片描述
问题目标: 为图像做Label
问题类型: 计算机视觉(CV);自然语言处理(NLP)
问题特点: 多模态分析(图片/文字);标注。

Challenges in Representation Learning: Facial Expression Recognition Challenge

这里写图片描述
问题目标: 识别图像中人脸表情
问题类型: 计算机视觉(CV);分类问题(Classification)
问题特点: 面部表情分类器;灰度图片。

Challenges in Representation Learning: The Black Box Learning Challenge

这里写图片描述
问题目标: 黑箱预测问题
问题类型: 分类问题(Classification)
问题特点: 数据没有实际意义;降维。

ICDAR2013 - Handwriting Stroke Recovery from Offline Data

这里写图片描述
问题目标: 预测手写签名的轨迹
问题类型: 动态规划(DP);计算机视觉(CV)
问题特点: 笔画方向;左/右撇子。

ICDAR2013 - Gender Prediction from Handwriting

这里写图片描述
问题目标: 预测手写笔记的作者是男还是女
问题类型: 计算机视觉(CV);分类问题(Classification)
问题特点: 性别特征对字体形态的影响;神经网络

Predicting Parkinson’s Disease Progression with Smartphone Data

这里写图片描述
问题目标: 根据用户的手机信息评估帕金斯综合症患者是否有症状发作的迹象/情况
问题类型: 时间序列分析(Time-Series Analysis);语音处理(Speech Processing)
问题特点: 多尺度数据;语音数据处理。

Visualize the State of Public Education in Colorado

这里写图片描述
问题目标: 根据科罗拉多州各学校3年的成绩数据,预测每个学校可能升到好学校的可能性
问题类型: 特征工程(Feature Engineering );回归问题(Regression)
问题特点: 多指标考核;评分标准。

Global Energy Forecasting Competition 2012 - Load Forecasting

这里写图片描述
问题目标: 预测美国20个地区的小时用电量(功率)
问题类型: 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点: 多维度分析。

Global Energy Forecasting Competition 2012 - Wind Forecasting

这里写图片描述
问题目标: 预测7个风力发电厂的现在——未来48小时每小时产生的电量
问题类型: 回归问题(Regression);时间序列分析(Time-Series Analysis)
问题特点: 多维度分析。

Data Mining Hackathon on (20 mb) Best Buy mobile web site - ACM SF Bay Area Chapter

这里写图片描述
问题目标: 基于用户的查询记录预测其最感兴趣的Xbox游戏类别
问题类型: 推荐系统(Recommendation system)
问题特点: 词云;关键词分析。

Data Mining Hackathon on BIG DATA (7GB) Best Buy mobile web site

这里写图片描述
问题目标: 基于用户的查询记录预测其最感兴趣的BestBuy产品类别
问题类型: 推荐系统(Recommendation system)
问题特点: 大数据分析;关键词分析。

CPROD1: Consumer PRODucts contest #1

这里写图片描述
问题目标: 自动分辨消费者提到的产品并正确的识别产品的类别
问题类型: 分类问题(Classification);NLP
问题特点: 大数据分析;自然语言处理。

Practice Fusion Diabetes Classification

这里写图片描述
问题目标: 诊断病人是否患有二型糖尿病
问题类型: 分类问题(Classification)
问题特点: 非线性边界。

剩余的项目分析可以联系我的qq获取。

  • 33
    点赞
  • 187
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值