天池新人实战赛o2o优惠券使用预测六（新的思考）

最新推荐文章于 2023-10-08 13:37:17 发布

masbbx123

最新推荐文章于 2023-10-08 13:37:17 发布

阅读量1.3k

点赞数

分类专栏：天池

本文链接：https://blog.csdn.net/masbbx123/article/details/78928878

版权

天池专栏收录该内容

8 篇文章 0 订阅

订阅专栏

指标好久没有什么大的提高了……
再次想了想，记录下新的想法：
1 再看了看数据统计的情况

data = pd.read_csv('data/ccf_offline_stage1_train.csv')
t = data[data['Date_received'] != "null"]
print(t['Date_received'].min())
print(t['Date_received'].max())
#使用消费券消费时间
t = data[data['Coupon_id'] != "null"]
t = t[t['Date']!='null']
print(t['Date'].min())
print(t['Date'].max())
#普通消费时间
t = data[data['Coupon_id'] == "null"]
t = t[t['Date']!='null']
print(t['Date'].min())
print(t['Date'].max())

线下领取消费券时间：20160101~20160615
线下使用消费券消费时间：20160101~20160630
线下没有使用消费券消费时间：20160101~20160630

data = pd.read_csv('data/ccf_online_stage1_train.csv')
#领取优惠券时间
t = data[data['Date_received'] != "null"]
print(t['Date_received'].min())
print(t['Date_received'].max())
#使用消费券消费时间
t = data[data['Coupon_id'] != "null"]
t = t[t['Date']!='null']
print(t['Date'].min())
print(t['Date'].max())
#普通消费时间
t = data[data['Coupon_id'] == "null"]
t = t[t['Date']!='null']
print(t['Date'].min())
print(t['Date'].max())

线上领取消费券时间：20160101~20160615
线上使用消费券消费时间：20160101~20160630
线上没有使用消费券消费时间：20160101~20160630

data = pd.read_csv('data/ccf_offline_stage1_test_revised.csv')
#领取优惠券时间
print(data['Date_received'].min())
print(data['Date_received'].max())

验证集领取消费券时间：20160701~20160730

前面一直没有划分训练集和测试集合，首先我们来做个数据分割
按照最终的验证集：
领券时间：20160701~20160730
预测消费：20160701~20160815
所以按照这个样式建立测试集例如：
领券时间：20160515~20160615
预测消费：20160515~20160630
训练集：
领券时间：20160401~20160501
预测消费：20160501~20160515
可以切割出多个训练集、测试集，所以，首先，我们得写个函数，这样可以很方便的进行对不同的训练集、测试集对进行训练，得到多个预测模型。
先把写函数的功能搞定，再进行下一步。

我使用的函数定义方法：（本人python小白，基本靠自学，如有错误请指正）
1 在junpyter中新建.ipynb文件，编写代码，调试通过：

#coding=utf-8
import pandas as pd
from pandas import Series,DataFrame 
import random
from numpy import nan as NA
def helloWorld():
    print('输出：hello')

2 新建文本文件，将调试好的代码复制过去（因为一定要utf-8编码，我找了半天没找到什么文本编辑器默认保存utf-8编码的）
3 修改文本文件名为.py
4 在另外的文件中调用：

from Fun1 import helloWorld
helloWorld()

下面的问题就是怎么传递参数了……
先实现使用函数返回值传递：

def Funtest(a,b):
    print('a=',a)
    print('b=',b)
    c = a+b
    print('c=',c)
    return c

调用：

from Fun1 import Funtest
t1 = 1
t2 = 2
t3 = 0
t3 = Funtest(t1,t2)
print('t3=',t3)

类似C指针的方式做入口参数：（小白，只摸索出这一种方法）

def Funtest(a,b,d):
    print('a=',a)
    print('b=',b)
    c = a+b
    print('c=',c)
    d[0] = c#这一步修改了外面的值
    return c
t1 = 1
t2 = 2
t3 = 0
t4 = [1,2]
t3 = Funtest(t1,t2,t4)
print('t3=',t3)
print('t4=',t4)

输出：
a= 1
b= 2
c= 3
t3= 3
t4= [3, 2]

如何输入字符串作为函数入参呢？

def helloWorld(s):
    print('输出：',s)
s = 'data/a.txt'
helloWorld(s)

所以，现在新写一个函数，入口为文件的地址，函数返回值为模型，同时返回预测成功率。
这样主函数做数据集的分割，调用函数，生成多个模型，然后多个模型统一预测，最后得到组合模型。
工作量貌似还有点大……，一点点来吧。

masbbx123

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录