用机器学习对CTR预估建模（一）

最新推荐文章于 2024-11-18 10:25:44 发布

原创

最新推荐文章于 2024-11-18 10:25:44 发布 · 9.9k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文探讨了如何使用机器学习对CTR（点击率）进行预估建模，首先进行了特征筛选和数据集的down sampling，然后通过简单的特征测试模型，并利用网格搜索优化参数。针对Kaggle上的CTR预测挑战，训练数据集由于规模庞大，需要特殊处理才能适应内存。最终展示了一部分实验结果。

题目网址：https://www.kaggle.com/c/avazu-ctr-prediction

数据集介绍：

train - Training set. 10 days of click-through data, ordered chronologically. Non-clicks and clicks
are subsampled according to different strategies.
Train.csv 解压后有5.6G,样本个数非常大，一般200m的csv数据（20~30维）用pandas读取成数据帧（dataframe）格式，大概会占用内存1G左右，所以这么的数据集单机内存一般吃不消。

test - Test set. 1 day of ads to for testing your model predictions.
Test.csv解压后有673m，不是很大。

sampleSubmission.csv - Sample submission file in the correct format, corresponds to the All-0.5 Benchmark.

对特征进行筛选和down sampling来降低数据集

# -*- coding: utf-8 -*-
"""
Created on Wed Feb 01 12:51:31 2017

@author: JR.Lu
"""
import pandas as pd
import numpy as np

train_df=pd.read_csv('train.csv',nrows=10000000)
test_df=pd.read_csv('test.csv')

#down sampling
temp_0=train_df.click==0
data_0=train_df[temp_0] # 16546986./20000000 占了0.8273493左右
temp_1=train_df.click==1
data_1=train_df[temp_1] # 3453014
data_0_ed=data_0[0:len(data_1)]
data_downsampled=pd.concat([data_1,data_0_ed])

#select features
#通过每个columns对label的影响来选择feature，这里使用grouby实现
#train_df.groupby(train_df['device_model'])['click'].mean()
columns_select_test=['id','device_type','C1','C15','C16','banner_pos','banner_pos','site_category']
columns_select=['click','device_type','C1','C15','C16','banner_pos','banner_pos','site_category']
data_downsampled_1=data_downsampled[columns_select]
test_small=test_df[columns_select_test]

# 打乱数据
sampler = np.random.permutation(len(data_downsampled_1))
data_downsampled_1=data_downsampled_1.take(sampler)
data_downsampled_1.to_csv('train_small.csv')
test_small.to_csv('test_small.csv')

其次是用简单的特征来测试模型，用网格搜索的方式来进行参数优选

# -*- coding: utf-8 -*-
"""
Created on Wed Feb 01 20:36:46 2017

@author: JR.Lu
"""
import pandas as pd
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from<

最低0.47元/天解锁文章

2 条评论

韩冷依旧 2020.01.06
您好，写的很棒，可以把这份5.6g的数据的压缩包发给我吗，邮箱89780264@qq.com

再来一碗冬阴功 2018.05.22
楼主写的很棒，想要和你交流一下，我没有太理解后面几个图的具体意义

Read__Book 2018.05.18
博主你好，如果我猜的没错的话，每一个样本经过你的模型得出的分值(概率值)应该都是差不多的;你试试深度学习模型auc应该会高一些。另外，你可否分享一下测试数据集，773188396@qq.com 谢谢。

艾米栗写代码 2018.04.26
博主你好，我是大四的一名学生，刚开始学习机器学习和数据挖掘方面的东西，想自己尝试做这个题目，如果你看到我的评论的话，可以加下我的qq吗？1294343193，想和你交流一下~~~

qq_31192549 2018.04.24
下载需要电话验证，我一直没输入正确格式，博主，能不能发给数据链接给我呢？

「已注销」 2017.11.30
可以啊，向博主学习

woshiyangzhiye 2017.11.22
您好，可以把这份5.6g的数据的压缩包发给我吗，kaggle上目前下载的数据只有2.5G，445922703@qq.com 谢谢。
- Q_S_Y_Q回复woshiyangzhiye 2018.03.05
  [reply]woshiyangzhiye[/reply] 我下了，压缩后是4.5G