Kaggle:数据践行者的好去处(如何开展大数据的实践?)

Kaggle是一个数据建模和数据分析竞赛平台,提供真实数据和问题,适合初学者实践。通过Kaggle,用户可以参与比赛、讨论、获取及时反馈,提升数据分析技能。Kaggle包含Competitions、Datasets和Kernel三大板块,同时设有论坛和招聘服务。通过参与Kaggle比赛,可以锻炼数据挖掘和特征工程能力,学习机器学习和数据科学的实际应用。
摘要由CSDN通过智能技术生成

大数据的学习是需要实践的,因为学习的最有效方式之一就是通过实践(Learning by doing),只有把学习和实践结合起来才能达到最大的效果。那么大数据的学习如何进行实践呢?一个很好的途径就是利用目前流行的数据分析、竞赛平台。今天就来介绍一个,名字叫Kaggle。

1、Kaggle是什么?

Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据,统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。这一众包模式依赖于这一洞见:解决某一预测性问题的方法和策略有很多,究竟什么方法对某一特定问题是最为有效的呢?答案就是群众的力量。Kaggle的目标就是试图通过众包的形式来解决这一难题,进而促进数据科学的发展。

 

Kaggle可以分为Competitions竞赛Datasets数据集以及Kernel内核三个子平台,配套的还有Forum论坛模块,以及供各类公司或组织招聘人才的Jobs模块等。


数据分析初学者可以在Kaggle平台上获得很多好处:

 

  • 真实的数据。在自己学习数据分析的过程中,很多时候是苦于没有数据,很多书或课程的数据都是演示性的,数据量小,而真实世界的数据往往都是大量,到处充满了缺失和不足,实际的数据分析工作中,很多工作都是和这些缺陷作斗争,如果能在学校里或是学习的开始阶段就被这些数据“蹂躏”一下,未来在真实工作中也会适应很多。

  • 真实的问题。在Kaggle上发布的竞赛题目,一般都是企业或政府组织中真实面临的问题。比如DVD租赁公司的推荐算法,比赛结束之后,准确率比之前提高了10%,这些算法被实际应用到了实际推荐中去;还有教育机构寻求给作文打分的算法模型,可以减少人工打分的成本,同时保持打分的稳定性,不会因为个别人的问题影响评分公正性。实际的数据分析工作都是从实际问题出发,选择解决办法的时候要考虑到各种制约,没有绝对的对与错,都是要根据实际业务,具体问题具体分析。

  • 及时的反馈。以前参加一些网上的数据分析比赛的时候,都是提交解决方案后,等到比赛截止日最终才知道结果。而在Kaggle上,只要提交了算法结果,就可以在Leader board上看到自己的排名和成绩,你可以不断改进,如果一次改进可以提高上百位的排名,对自己很有激励作用,促使你进行不断的尝试,收获也越多。

  • 线上的讨论。每给Kaggle竞赛题目都配有一个论坛,参赛者在赛中和赛后可以相互讨论,这让学习不再孤单,可以在讨论中吸取别人的思路,也可以为他人提供指导。

 

截止到2016年5月份,Kaggle拥有超过536,000个Kagglers,其中包括了IBM Watson以及Google Deep Mind的研究团队。Kaggle在全球范围内拥有将近20万名数据科学家,专业领域从计算机科学到统计学、经济学和数学。Kaggle的数据涉及领域涵盖了计算机科学、计算机视觉、生物、医药、甚至冰川学等等。很多Kaggle的竞赛都吸引了超过1,000个队伍和个人参赛。他们中的许多人都在各类会议和同行评议的期刊上发表了与其比赛结果相关的文章。每个月Kaggle论坛有超过4,000条新帖子,每天Kaggle比赛有超过3,500次提交。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值