先别管那些算法了,从实战中开始大数据机器学习(一)

概述

我从去年8月份开始接触机器学习。简单的讲下我的这段经历:

  1. 首先是斯坦福大学的吴恩达的机器学习;学会了一些原理,但在学习的过程中不断触碰到微积分,而微积分的相关知识早已全部忘记,然后转头去学习微积分。

  2. 微积分看的是麻省理工的Gilbert Strang的课程。也算是硬着头皮看完了,并且做了一点笔记。使得对微积分有一个简单的概念。在学习微积分的过程中,又不断涉及到统计学的概念,于是又再去学习统计学。

  3. 统计学看的是可汗学院的课程。

  4. 以上3个阶段,每个阶段都耗时近2个月,总体感受是:有些概念还是要懂,但是说实话,概念实在太多,都是硬着头皮在学。

  5. 后来在博客园的广告里,接触了 某达学程,算是开启了新的篇章。真正从代码层面开始了解机器学习。

  6. 再接下来,认识了kaggle(国外)竞赛平台,然后是天池(国内)竞赛,开启从实战中学习机器学习之路。

  7. 总结:有些必要的概念,比如什么叫监督学习、非监督学习、回归、分类、众数、中位数等等还是要知道,但是程序员应该还是更习惯从代码中去理解和学习。只有从实战中,才会获得“成就感”,才会使你不断尝试,从而不断进步,而不是被一个接一个的各种概念轮番轰炸,最后放弃。


开启实战之路

声明:我是菜鸡!我是新手!你可以提出不同意见,但不要嘲讽。

  1. 赛题:天池新人实战赛o2o优惠券使用预测

  2. 赛题简介:

以优惠券盘活老用户或吸引新客户进店消费是O2O的一种重要营销方式。然而随机投放的优惠券对多数用户造成无意义的干扰。对商家而言,滥发的优惠券可能降低品牌声誉,同时难以估算营销成本。 个性化投放是提高优惠券核销率的重要技术,它可以让具有一定偏好的消费者得到真正的实惠,同时赋予商家更强的营销能力。本次大赛为参赛选手提供了O2O场景相关的丰富数据,希望参赛选手通过分析建模,精准预测用户是否会在规定时间内使用相应优惠券。

  1. 下载数据及对数据简单的了解

User_id 用户ID
Merchant_id 商户ID
Coupon_id 优惠券ID:null表示无优惠券消费,此时Discount_rate和Date_received字段无意义
Discount_rate 优惠率:x \in [0,1]代表折扣率;x:y表示满x减y。单位是元
Distance 用户经常活动的地点离该merchant的最近门店距离是x*500米(如果是连锁店,则取最近的一家门店),x\in[0,10];null表示无此信息,0表示低于500米,10表示大于5公里;
Date_received 领取优惠券日期
Date 消费日期:如果Date=null & Coupon_id != null,该记录表示领取优惠券但没有使用,即负样本;如果Date!=null & Coupon_id = null,则表示普通消费日期;如果Date!=null & Coupon_id != null,则表示用优惠券消费日期,即正样本;

  1. 实战代码
    天池新人实战赛o2o优惠券使用预测 notebook截图

备注:新人练手、入门,欢迎交流。

转载于:https://www.cnblogs.com/senlinmu/articles/7086382.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值