- 博客(7)
- 收藏
- 关注
原创 2019腾讯广告算法大赛之使用XGBOOST模型+网格搜索 轻松上80
前三个部分分别介绍了如何清洗广告数据集、用户数据集、曝光广告数据集和测试集,以及构如何构造训练的标签,具体链接见下文,在我们构造好训练集之后,我们开始使用XGBOOST模型训练数据集,训练方法分为两个版本,第一个版本是简单版本,训练集的属性列中只包含取唯一值的数据,第二个版本是加上取多值的属性列。参考的代码链接是bryan大佬18年腾讯算法大赛公布的baseline。第一部分: 如何清洗广告数...
2019-05-06 07:29:54 2894 14
原创 2019腾讯广告算法大赛之整理测试数据集以及构造训练集
在重构训练样本之前我们首先需要对测试集中样本进行整理,因为训练的样本要和测试样本在维度上(属性列)要保持一致的。首先看一下原始样本的格式:除了人群定向这一列属性需要根据关键字进行分裂之外,对于其他属性我没有做任何修改,Okay!!!对于人群定向的修改可以分成两种情况,第一种: 当该条记录中的关键字是(属性列名: 具体值)对于出现的属性列进行保存,没出现的属性列直接设置成-1第二种:...
2019-05-05 15:01:05 4171 12
原创 2019腾讯广告算法大赛之清洗曝光广告数据集以及构造标签
首先是对清洗曝光广告日志中的脏数据进行清洗,脏数据主要包括三种情况,第一: 该条广告记录中的广告ID不存在于静态广告数据和操作广告数据中,因为不存的话则该条数据无法构造训练集。第二: 广告请求时间不合理,也即是出现二月三十号的这种情况第三: 如果该条广告操作数据的取值不合理,例如(广告行业ID中出现多值,或者出现缺失数据)最后在保存广告操作数据集时,我首先是按照天进行保存的,然后在...
2019-05-05 10:47:53 2439 7
原创 2019腾讯广告算法大赛之清洗广告数据集和用户数据集
研一下半学期参加的比赛,失败原因如下:第一,pandas几乎是从零开始,对于某些数据的清洗如果使用pandas封装的函数可能只需要很短的时间,但是使用python的判断语句会很慢,而且可能做不出来。okay 2019/06/05已学习第二,因为赛题中需要自己构造训练数据和标签,对题目理解的不是很好,导致构造数据集的目标一直再修改,第三,比赛之前虽然实现了和题目相关代码,以及可...
2019-05-04 16:51:44 5683 23
原创 Pandas快速入门之第三节使用pandas去重、合并、已经统计出现次数
前言: 本节主要参考的连接有,https://blog.csdn.net/brucewong0516/article/details/82707492 本节主要介绍如何使用pandas去重、合并、以及根据规则统计出现数据出现的次数,其主要包括三个函数:drop_duplicates()、merge() 、groupby() 。1、dro...
2019-05-24 17:21:35 11678 2
原创 Pandas快速入门之第二节将时间戳和真实时间的转化
前言: 本节主要介绍两个部分,第一个部分是介绍如何使用python将时间戳转化成我们需要的时间格式,第二个部分讲解在csv文件中如何根据已有时间信息,统计每天内每个广告数据出现的次数。相关函数讲解1: 如何使用python将时间戳转化成我们需要的时间格式, 直接使用封装好的time.localtime()即可, time.localtime()输入的为整数类型...
2019-05-24 11:44:35 4407
原创 Pandas快速入门之第一节数据的读取和保存
前言:前几天参加腾讯算法大赛,深感在数据处理时pandas的中各种包的强大,所以简单的记录一下Pandas中的几个库。这一节主要介绍pandas中的数据读取和保存相关的函数,分别是read_csv() 和 to_csv() 。to_csv()函数讲解:第一个参数表示将要保存的数据文件,第二个参数表示保存数据时要不要加上行索引,默认为True第三个参数表示是否加入标题,默认为Tr...
2019-05-24 10:01:19 1178
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人