大数据分析的众包平台—Kaggle

众包(Jeff Howe,2006)是一种在互联网蓬勃发展的背景下产生的一种创新的生产组织形式。在这样的商业模式下,企业利用网络将工作分配出去,通过让更合适的人群参与其中来发现创意和解决技术问题。比较成功的众包例子有像wikipedia这样的知识贡献类平台,GitHub这样的IT类平台,也有我们要着重介绍的大数据分析类的众包平台Kaggle。

 

Figure 1 Kaggle的工作方式。

Kaggle的工作方式如图中右上角的流程所示。假设一个互联网广告公司收集了大量的关于用户广告点击行为的数据,想从这些数据中发现用户点击的规律、模式,希冀以此来优化广告投放、提高用户点击转化率。一种做法是,公司雇佣一个数据科学家团队来洞察数据,为决策提供支持。这种做法的成本可能比较高,小公司难以承受。Kaggle提供了另外一种方式。公司可以将他们的数据、问题的描述、以及期望的指标整理后发布到Kaggle上,通过举办竞赛的方式让网上的数据科学家参与解决。数据分析师们或独立、或组队参加比赛,利用自己的专业知识和数据分析工具得到优化模型。最后,这些结果经过原定指标的检验,被公布到排行版上;最好的结果将获得竞赛的奖金(几百美元到几百万美元不等)。而公司也能最终拥有数据分析的结果、模型等知识产权。图中左表列出了Kaggle上面一个问题的例子,这是关于Twitter对其用户的个性分析的案例。包含了训练集、测试集、示例代码和作为基准的随机森林模型。而右表则是排行版上前六位的团队以及他们在loss这个指标上的表现。

Kaggle的流行是由两方面的因素决定的。首先,随着数据量的爆炸性增长,尤其是互联网企业掌握的数据越来越多,如何利用这些数据成为了决策者们所关心的问题。大多数依靠互联网挣钱的企业技术门槛较低,竞争激励。像2010年兴起的团购,一时间中国大地上出现了5000多家类似的公司,大家有着同样的网站模板,相似的业务,却没有任何差异化的东西。如何提高技术壁垒,脱颖而出,数据驱动(data-driven)成为了大家关注的焦点。商家们需要收集用户的行为数据,分析不同用户群体的行为规律,从而为商品的定向投放,精准推荐提供有力支持。另一方面,数据科学家成为了21世纪最稀缺的资源。Kaggle总裁兼首席科学家Jeremy Howard认为一个伟大的数据科学家应具备创新、坚韧、好奇、深厚技术这四项素质。具备数据收集、数据改写、可视化、机器学习、计算机编程等技术的数据科学家使数据驱动决策并主导产品。根据McKinsey的预测,在未来6年,仅在美国本土就可能面临缺乏14万至19万具备深入分析数据能力人才的情况,同时具备通过分析大数据并为企业做出有效决策的数据的管理人员和分析师也有150万人的缺口。如何充分利用现有的数据科学家的专业知识来帮助有需要的企业实现数据驱动的业务支持,Kaggle正是基于这样的想法,建立起了一个联通领域和专业技能的桥梁。

众包方式的大数据分析绝不仅仅只有Kaggle一家,类似的还有CrowdAnalytixTunedIT。而最早的学术界的Kaggle可以认为是从1997年开始的由ACM组织的KDD CUP(知识发现和数据挖掘竞赛)。KDD每年一次,涉及的领域从生物、营销、安全、医学,一直到最近火热的用户行为分析和社交网络分析。比如,今年(KDD2012)的分析任务就是由腾讯微博提供,通过对微博的社交分析,期望预测出最有可能的关注(Follow)关系。

现在已经是“大数据”的时代,所有的人都预测在这个领域内将来会产生一批伟大的公司。目前,在Kaggle上吸引了将近六万的参与者,竞赛的内容也从单纯的预测性分析拓展到所有关于数据的创意,比如如何实现工作职位网站上的数据可视化。可以说,聚集了如此多智慧和机会的大数据众包平台Kaggle一定会成为这些伟大公司的一员,让我们拭目以待。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
供应链商品销售数据分析 1、分析背景 在市面上,各种商品层出不穷、琳琅满目,实体店的基数也非常庞大。但不是每一个商品、实体店都能做得红火。有很多实体店因为没有正确分析市场,进而关门倒闭。对已知数据的门面类型、商品种类、销售程度等利用Python进行数据分析,可以得到一个很合理的选择和决策。 A市客户有意加盟380开设连锁门店,我们将根据A市已有销售点的销售数据分析,给予该客户铺货支持和经营策略建议。通过对部门的运营情况、财务状况、物流管理等不同维度的分析,评估该部门健康状况和发展趋势,指导平台发现问题并进行优化。帮助客户更好的经营店铺,将收益在理想环境下提升到最大值。 2、学习目标 (1)学习如何运用Python数据分析、数据可视化等技术; (2)了解并运用 pandas、matplotlib、seaborn库可视化分析数据; (3)为从事数据挖掘相关工作累积数据分析项目的方法、流程和经验; (4)熟悉企业的工作环境,在规定时间内完成项目需求、提升专业技术、锻炼团队协作能力与沟通能力; 3、理解数据 本次拟分析的数据有一个——供应链商品数据包含: 商品代号:Tape;Safety;Adhesive 销售月份:January——December 销售点类型:CBD店;社区店 销售额(万元) 4、思路分析 5、数据分析 5.1分析新开拓销售点的选址 任务描述 380设置两种店面类型,分别为CBD店和社区店。CBD店面向广,有更好的消费者流动性。社区店较稳定,消费者比较固定,回头客更多。如何去选择也是非常重要的一点。相同商品,只要分析消费者更倾向于CBD店还是社区店便能确定选择何种模式的销售点。 任务分析 通过加和,将CBD店的总收益和社区店的总收益做比较对比什么店销售额更高。通过CBD店和社区店单个商品的总销售额做对比,判断何种商品在不同的销售点卖得更好。 通过观察发现,两种店的商品销售额除开Safety8外,几乎相差不大。很明显,差距是商品Safety8拉开的。 小结: 很明显,客户选址为CBD店更为合理。因为在CBD店中,消费者更愿意购买Safety8。同时应多推销Safety8,并多进货Safety8。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值