2019年05月_YYLin-AI

原创 2019腾讯广告算法大赛之使用XGBOOST模型+网格搜索轻松上80

前三个部分分别介绍了如何清洗广告数据集、用户数据集、曝光广告数据集和测试集，以及构如何构造训练的标签，具体链接见下文，在我们构造好训练集之后，我们开始使用XGBOOST模型训练数据集，训练方法分为两个版本，第一个版本是简单版本，训练集的属性列中只包含取唯一值的数据，第二个版本是加上取多值的属性列。参考的代码链接是bryan大佬18年腾讯算法大赛公布的baseline。第一部分：如何清洗广告数...

2019-05-06 07:29:54 2894 14

原创 2019腾讯广告算法大赛之整理测试数据集以及构造训练集

在重构训练样本之前我们首先需要对测试集中样本进行整理，因为训练的样本要和测试样本在维度上(属性列)要保持一致的。首先看一下原始样本的格式：除了人群定向这一列属性需要根据关键字进行分裂之外，对于其他属性我没有做任何修改，Okay！！！对于人群定向的修改可以分成两种情况，第一种：当该条记录中的关键字是（属性列名：具体值）对于出现的属性列进行保存，没出现的属性列直接设置成-1第二种：...

2019-05-05 15:01:05 4171 12

原创 2019腾讯广告算法大赛之清洗曝光广告数据集以及构造标签

首先是对清洗曝光广告日志中的脏数据进行清洗，脏数据主要包括三种情况，第一：该条广告记录中的广告ID不存在于静态广告数据和操作广告数据中，因为不存的话则该条数据无法构造训练集。第二：广告请求时间不合理，也即是出现二月三十号的这种情况第三：如果该条广告操作数据的取值不合理，例如（广告行业ID中出现多值，或者出现缺失数据）最后在保存广告操作数据集时，我首先是按照天进行保存的，然后在...

2019-05-05 10:47:53 2439 7

原创 2019腾讯广告算法大赛之清洗广告数据集和用户数据集

研一下半学期参加的比赛，失败原因如下:第一，pandas几乎是从零开始，对于某些数据的清洗如果使用pandas封装的函数可能只需要很短的时间，但是使用python的判断语句会很慢，而且可能做不出来。okay 2019/06/05已学习第二，因为赛题中需要自己构造训练数据和标签，对题目理解的不是很好，导致构造数据集的目标一直再修改，第三，比赛之前虽然实现了和题目相关代码，以及可...

2019-05-04 16:51:44 5683 23

原创 Pandas快速入门之第三节使用pandas去重、合并、已经统计出现次数

前言：本节主要参考的连接有,https://blog.csdn.net/brucewong0516/article/details/82707492 本节主要介绍如何使用pandas去重、合并、以及根据规则统计出现数据出现的次数，其主要包括三个函数:drop_duplicates()、merge() 、groupby() 。1、dro...

2019-05-24 17:21:35 11678 2

原创 Pandas快速入门之第二节将时间戳和真实时间的转化

前言：本节主要介绍两个部分，第一个部分是介绍如何使用python将时间戳转化成我们需要的时间格式，第二个部分讲解在csv文件中如何根据已有时间信息，统计每天内每个广告数据出现的次数。相关函数讲解1：如何使用python将时间戳转化成我们需要的时间格式，直接使用封装好的time.localtime()即可， time.localtime()输入的为整数类型...

2019-05-24 11:44:35 4407

原创 Pandas快速入门之第一节数据的读取和保存

前言:前几天参加腾讯算法大赛，深感在数据处理时pandas的中各种包的强大，所以简单的记录一下Pandas中的几个库。这一节主要介绍pandas中的数据读取和保存相关的函数，分别是read_csv() 和 to_csv() 。to_csv()函数讲解：第一个参数表示将要保存的数据文件，第二个参数表示保存数据时要不要加上行索引，默认为True第三个参数表示是否加入标题，默认为Tr...

2019-05-24 10:01:19 1178

YYLin