自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

YYLin

https://github.com/YYlin

  • 博客(7)
  • 收藏
  • 关注

原创 2019腾讯广告算法大赛之使用XGBOOST模型+网格搜索 轻松上80

前三个部分分别介绍了如何清洗广告数据集、用户数据集、曝光广告数据集和测试集,以及构如何构造训练的标签,具体链接见下文,在我们构造好训练集之后,我们开始使用XGBOOST模型训练数据集,训练方法分为两个版本,第一个版本是简单版本,训练集的属性列中只包含取唯一值的数据,第二个版本是加上取多值的属性列。参考的代码链接是bryan大佬18年腾讯算法大赛公布的baseline。第一部分: 如何清洗广告数...

2019-05-06 07:29:54 2894 14

原创 2019腾讯广告算法大赛之整理测试数据集以及构造训练集

在重构训练样本之前我们首先需要对测试集中样本进行整理,因为训练的样本要和测试样本在维度上(属性列)要保持一致的。首先看一下原始样本的格式:除了人群定向这一列属性需要根据关键字进行分裂之外,对于其他属性我没有做任何修改,Okay!!!对于人群定向的修改可以分成两种情况,第一种: 当该条记录中的关键字是(属性列名: 具体值)对于出现的属性列进行保存,没出现的属性列直接设置成-1第二种:...

2019-05-05 15:01:05 4171 12

原创 2019腾讯广告算法大赛之清洗曝光广告数据集以及构造标签

首先是对清洗曝光广告日志中的脏数据进行清洗,脏数据主要包括三种情况,第一: 该条广告记录中的广告ID不存在于静态广告数据和操作广告数据中,因为不存的话则该条数据无法构造训练集。第二: 广告请求时间不合理,也即是出现二月三十号的这种情况第三: 如果该条广告操作数据的取值不合理,例如(广告行业ID中出现多值,或者出现缺失数据)最后在保存广告操作数据集时,我首先是按照天进行保存的,然后在...

2019-05-05 10:47:53 2439 7

原创 2019腾讯广告算法大赛之清洗广告数据集和用户数据集

研一下半学期参加的比赛,失败原因如下:第一,pandas几乎是从零开始,对于某些数据的清洗如果使用pandas封装的函数可能只需要很短的时间,但是使用python的判断语句会很慢,而且可能做不出来。okay 2019/06/05已学习第二,因为赛题中需要自己构造训练数据和标签,对题目理解的不是很好,导致构造数据集的目标一直再修改,第三,比赛之前虽然实现了和题目相关代码,以及可...

2019-05-04 16:51:44 5683 23

原创 Pandas快速入门之第三节使用pandas去重、合并、已经统计出现次数

前言: 本节主要参考的连接有,https://blog.csdn.net/brucewong0516/article/details/82707492 本节主要介绍如何使用pandas去重、合并、以及根据规则统计出现数据出现的次数,其主要包括三个函数:drop_duplicates()、merge() 、groupby() 。1、dro...

2019-05-24 17:21:35 11678 2

原创 Pandas快速入门之第二节将时间戳和真实时间的转化

前言: 本节主要介绍两个部分,第一个部分是介绍如何使用python将时间戳转化成我们需要的时间格式,第二个部分讲解在csv文件中如何根据已有时间信息,统计每天内每个广告数据出现的次数。相关函数讲解1: 如何使用python将时间戳转化成我们需要的时间格式, 直接使用封装好的time.localtime()即可, time.localtime()输入的为整数类型...

2019-05-24 11:44:35 4407

原创 Pandas快速入门之第一节数据的读取和保存

前言:前几天参加腾讯算法大赛,深感在数据处理时pandas的中各种包的强大,所以简单的记录一下Pandas中的几个库。这一节主要介绍pandas中的数据读取和保存相关的函数,分别是read_csv() 和 to_csv() 。to_csv()函数讲解:第一个参数表示将要保存的数据文件,第二个参数表示保存数据时要不要加上行索引,默认为True第三个参数表示是否加入标题,默认为Tr...

2019-05-24 10:01:19 1178

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除