先别管那些算法了，从实战中开始大数据机器学习（一）-CSDN博客

概述

我从去年8月份开始接触机器学习。简单的讲下我的这段经历：

首先是斯坦福大学的吴恩达的机器学习；学会了一些原理，但在学习的过程中不断触碰到微积分，而微积分的相关知识早已全部忘记，然后转头去学习微积分。
微积分看的是麻省理工的Gilbert Strang的课程。也算是硬着头皮看完了，并且做了一点笔记。使得对微积分有一个简单的概念。在学习微积分的过程中，又不断涉及到统计学的概念，于是又再去学习统计学。
统计学看的是可汗学院的课程。
以上3个阶段，每个阶段都耗时近2个月，总体感受是：有些概念还是要懂，但是说实话，概念实在太多，都是硬着头皮在学。
后来在博客园的广告里，接触了某达学程，算是开启了新的篇章。真正从代码层面开始了解机器学习。
再接下来，认识了kaggle（国外）竞赛平台，然后是天池（国内）竞赛，开启从实战中学习机器学习之路。
总结：有些必要的概念，比如什么叫监督学习、非监督学习、回归、分类、众数、中位数等等还是要知道，但是程序员应该还是更习惯从代码中去理解和学习。只有从实战中，才会获得“成就感”，才会使你不断尝试，从而不断进步，而不是被一个接一个的各种概念轮番轰炸，最后放弃。

开启实战之路

声明：我是菜鸡！我是新手！你可以提出不同意见，但不要嘲讽。

赛题：天池新人实战赛o2o优惠券使用预测
赛题简介：

以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言，滥发的优惠券可能降低品牌声誉，同时难以估算营销成本。个性化投放是提高优惠券核销率的重要技术，它可以让具有一定偏好的消费者得到真正的实惠，同时赋予商家更强的营销能力。本次大赛为参赛选手提供了O2O场景相关的丰富数据，希望参赛选手通过分析建模，精准预测用户是否会在规定时间内使用相应优惠券。

下载数据及对数据简单的了解

User_id 用户ID
Merchant_id 商户ID
Coupon_id 优惠券ID：null表示无优惠券消费，此时Discount_rate和Date_received字段无意义
Discount_rate 优惠率：x \in [0,1]代表折扣率；x:y表示满x减y。单位是元
Distance 用户经常活动的地点离该merchant的最近门店距离是x*500米（如果是连锁店，则取最近的一家门店），x\in[0,10]；null表示无此信息，0表示低于500米，10表示大于5公里；
Date_received 领取优惠券日期
Date 消费日期：如果Date=null & Coupon_id != null，该记录表示领取优惠券但没有使用，即负样本；如果Date!=null & Coupon_id = null，则表示普通消费日期；如果Date!=null & Coupon_id != null，则表示用优惠券消费日期，即正样本；