天池新人赛-天池新人实战赛o2o优惠券使用预测(一)

  第一次参加天池新人赛,主要目的还是想考察下自己对机器学习上的成果,以及系统化的实现一下所学的东西。看看自己的掌握度如何,能否顺利的完成一个分析工作。为之后的学习奠定基础。

  这次成绩并不好,只是把整个机器学习的流程熟悉了下。我本人总结如下:

  步骤一:读懂题目含义,分析赛题的数据

  步骤二:特征工程的设计,这部分非常重要,好的特征工程能大大提高模型的准确率

  步骤三:训练算法。区分训练集、测试集等。

  步骤四:测试模型,看效果如何。

 

  赛题可以去天池的官网查看,里面有赛题说明,赛题数据等等

  https://tianchi.aliyun.com/getStart/introduction.htm?spm=5176.11165418.333.1.3c2e613cd1CCDk&raceId=231593

  以下是代码部分:

  

1 import numpy as np
2 import pandas as pd
3 
4 #导入数据
5 train_online = pd.read_csv('ccf_online_stage1_train.csv')
6 train_offline = pd.read_csv('ccf_offline_stage1_train.csv')
7 test = pd.read_csv('ccf_offline_stage1_test_revised.csv')
1 #将数据合并,以便统一对数据进行处理。都是线下数据
2 all_offline = pd.concat([train_offline,test])
1 #查看每一列的异常值
2 f = lambda x:sum(x.isnull())
3 all_offline.apply(f)

  

 1 #Data的空值 赋值为null,统一空值的格式
 2 all_offline['Date'] = all_offline['Date'].fillna('null')
 3 
 4 #将online与offline的数据合并
 5 pd.merge(all_offline,train_online,on=['Merchant_id','User_id'])
 6 
 7 #通过合并数据,发现两者并无交集,题目要求只用线下预测,故排除线上online数据,
 8 #只用offline数据
 9 
10 #根据赛题的要求,把正负样本标注出来
11 def is_used(column):
12     if column['Date']!='null' and column['Coupon_id']!='null':
13         return 1
14     elif column['Date']=='null' and column['Coupon_id']!='null':
15         return -1
16     else:
17         return 0
18 
19 all_offline['is_used'] = all_offline.apply(is_used,axis=1)
View Code
1 #Coupon_id 优惠券ID的具体数值意义不大,因此我们把他转换成:是否有优惠券
2 def has_coup(x):
3     if x['Coupon_id'] != 'null':
4         return 1
5     else:
6         return 0
7     
8 all_offline['has_coup']=all_offline.apply(has_coup,axis=1)
 1 #由于Discount_rate优惠率的特殊格式:"150:20",很难使用算法来计算使用
 2 #根据实际情况,优惠力度是能够影响优惠券的使用频率的。因此需要对Discount_rate进行转化
 3 #根据Discount_rate标识出折扣率
 4 import re
 5 regex=re.compile('^\d+:\d+$')
 6 
 7 def discount_percent(y):
 8     if y['Discount_rate'] == 'null' and y['Date_received'] == 'null':
 9         return 'null'
10     elif re.match(regex,y['Discount_rate']):
11         num_min,num_max=y['Discount_rate'].split(':')
12         return float(num_max)/float(num_min)
13     else:
14         return y['Discount_rate']
15 
16 all_offline['discount_percent'] = all_offline.apply(discount_percent,axis=1)
View Code

 

 1 #在进一步想,优惠力度会影响优惠券使用的概率,x:y这种满减的类型,x具体是多少,势必也会影响优惠券使用率
 2 #讲满x元的标出x元
 3 def discount_limit(y):
 4     if y['Discount_rate'] == 'null' and y['Date_received'] == 'null':
 5         return 'null'
 6     elif re.match(regex,y['Discount_rate']):
 7         num_min,num_max=y['Discount_rate'].split(':')
 8         return num_min
 9     else:
10         return 0
11 
12 all_offline['discount_limit'] = all_offline.apply(discount_limit,axis=1)
13 all_offline.head(10)

  

 

 1 #由于赛题需要的是,优惠券领取后15天的使用概率
 2 #因此,我们在is_used的基础上,在对领券时间 Date_received 和使用时间Date,进行比较,判断是否在15天内使用
 3 #时间比较
 4 import datetime
 5 #标注15天内使用优惠券的情况
 6 def used_in_15days(z):
 7     if z['is_used'] == 1 and z['Date'] != 'null' and z['Date_received'] != 'null':
 8         days= (datetime.datetime.strptime(z['Date'],"%Y%m%d")-datetime.datetime.strptime(z['Date_received'],"%Y%m%d"))
 9         if days.days < 15:
10             return 1
11         else:
12             return 0
13     else:
14         return 0
15         
16 all_offline['used_in_15days']=all_offline.apply(used_in_15days,axis=1)
1 #再来观察discount_percent,discount_limit这2个特征,看数据的分布情况。
2 all_offline['discount_percent'].value_counts()

   

1 all_offline['discount_limit'].value_counts()

   

#将discount_percent分段
def discount_percent_layer(columns):
    if columns['discount_percent']=='null':
        return 'null'
    
    columns['discount_percent']=float(columns['discount_percent'])
    if columns['discount_percent'] <= 0.1:
        return 0.1
    elif columns['discount_percent'] <= 0.2:
        return 0.2
    elif columns['discount_percent'] <= 0.3:
        return 0.3
    elif columns['discount_percent'] <= 0.4:
        return 0.4
    else:
        return 0.5

all_offline['discount_percent_layer']=all_offline.apply(discount_percent_layer,axis=1)
all_offline['discount_percent_layer'].value_counts()

 ·  

 1 #将discount_limit分段
 2 def discount_limit_layer(columns):
 3     if columns =='null':
 4         return 'null'
 5     
 6     columns=int(columns)
 7     if columns <= 10:
 8         return 10
 9     elif columns <= 20:
10         return 20
11     elif columns <= 30:
12         return 30
13     elif columns <= 50:
14         return 50
15     elif columns <= 100:
16         return 100
17     elif columns <= 200:
18         return 200
19     else:
20         return 300
21 
22 all_offline['discount_limit_layer']=all_offline['discount_limit'].apply(discount_limit_layer)
23 all_offline['discount_limit_layer'].value_counts()

   

总结:
  此时 Coupon_id 被处理成 has_coup(1代表领取优惠券,0代表没有领取优惠券)
  Date,Date_received 被处理成 used_in_15days。表示是否在15天内使用过优惠券
  Discount_rate 被处理成 discount_percent(折扣率),discount_limit(满多少)
  Merchant_id,User_id 是unicode值,不需要进行处理

1 #剩下Distance,看下Distance的分布情况
2 all_offline['Distance'].value_counts()

  

1 #保存数据,以便后期使用起来方便
2 train_finall,test_finall = all_offline[:train_offline.shape[0]],all_offline[train_offline.shape[0]:]
3 all_offline.to_csv(r'output\all_offline.csv')
4 train_finall.to_csv(r'output\train_finall.csv')
5 test_finall.to_csv(r'output\test_finall.csv')
1 #one_hot处理
2 all_offline_new=all_offline.drop(
3         ['Coupon_id','Date','Date_received','Discount_rate','Merchant_id',
4          'User_id','discount_percent','discount_limit'],axis=1)
5 all_offline_new=pd.get_dummies(all_offline_new)
 1 #把测试集跟验证集分开
 2 train01,test01=all_offline_new[:len(train_offline)],all_offline_new[len(train_offline):]
 3 
 4 #把没有领券的去掉
 5 train02=train01[train01['has_coup']==1]
 6 
 7 #由于特征集 都是领券的人,故把 has_coup 字段删掉
 8 train02=train02.drop(['has_coup'],axis=1)
 9 test01=test01.drop(['has_coup'],axis=1)
10 
11 x_train=train02.drop(['used_in_15days'],axis=1)
12 y_train=pd.DataFrame({"used_in_15days":train02['used_in_15days']})
13 x_text=test01.drop(['used_in_15days'],axis=1)
 1 #建模
 2 from sklearn.linear_model import LinearRegression
 3 
 4 clf=LinearRegression()
 5 clf.fit(x_train,y_train)
 6 
 7 #用模型进行预测
 8 predict=clf.predict(x_text)
 9 
10 
11 result=pd.read_csv('ccf_offline_stage1_test_revised.csv')
12 result['probability']=predict
13 
14 result=result.drop(['Merchant_id','Discount_rate','Distance'],axis=1)
15 
16 
17 #发现最终预测有负值,直接归为0
18 result['probability']=result['probability'].apply(lambda x: 0 if x<0 else x)
19 
20 result.to_csv(r'output/sample_submission.csv',index=False)

转载于:https://www.cnblogs.com/yaowentao/p/8398735.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本
天池新人 O2O 优惠券是一项在线比,旨在鼓励参者运用数据分析和机器学习技术来解决O2O优惠券发放的问题。O2O即“线上到线下”,是指将线上平台的服务与线下实体商店的购物场景结合起来的商业模式。而优惠券则是一种促销手段,可以为消费者提供折扣、赠品或者其他优惠活动。 这个比的主要任务是根据用户的线上活动行为、线下消费行为,以及优惠券的相关信息,预测用户是否会在规定的时间内使用优惠券来购买指定的商品。通过分析大量的历史数据,参者需要构建准确的预测模型,同时考虑到用户的行为特征和优惠券的属性,从而提高优惠券使用效率和商家的销售转化率。 此项比的意义在于挖掘并优化O2O优惠券的发放策略,提供更精准的目标营销。通过合理分析用户行为和优惠券的匹配关系,商家可以有针对性地向潜在消费者发放优惠券,从而提高用户的购买转化率和忠诚度。同时,这也可以减少优惠券的浪费,降低商家的营销成本。 通过参与天池新人 O2O 优惠券,参者将面临来自各方面的挑战和难题。不仅需要运用数据分析和机器学习算法进行预测,还需要对于O2O领域的相关知识有一定的了解。此外,参者还可以通过与其他选手的交流和分享经验,提高自己的解题能力以及理解O2O优惠券的商业价值。 总的来说,天池新人 O2O 优惠券是一项挑战性的比,旨在促进数据分析和机器学习在O2O领域的应用,为商家提供更智能化、精确化的优惠券发放策略,同时为消费者提供更个性化、经济实惠的购物体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值