Datawhale 第三期夏令营笔记(1)

文章讲述了如何理解和应用在一个涉及约62万训练样本和20万测试样本的二分类赛题中,使用f1_score作为评价指标,预测用户新增情况的过程,包括性能度量、特征工程和模型构建策略。
摘要由CSDN通过智能技术生成

赛题信息

赛题数据

62万条训练集、20万条测试集数据.

每条数据包含13个字段.  其中uuid为样本唯一标识,eid为访问行为ID,udmap为行为属性,其中的key1到key9表示不同的行为属性,如项目名、项目id等相关字段,common_ts为应用访问记录发生时间(毫秒时间戳),其余字段x1至x8为用户相关的属性,为匿名处理字段。target字段为预测目标,即是否为新增用户.

赛题目标

需要基于提供的样本构建模型,预测用户的新增情况.

赛题评价指标

竞赛的评价标准采用f1_score,分数越高,效果越好 .

赛题理解

由任务目标可知,此次赛题是典型的二分类问题 .而要理解竞赛评价标准中的f1_score,就要先理解性能度量的一些指标. (注:此部分来自大佬讲解与机器学习西瓜书)

性能度量

对学习器的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需
要有衡量模型泛化能力的评价标准.

在预测任务中,给定样例集eq?D%20%3D%20%5Cleft%20%5C%7B%20%28x_%7B1%7D%2Cy_%7B1%7D%29%2C%28x_%7B2%7D%2Cy_%7B2%7D%29%2C...%2C%28x_%7Bm%7D%2Cy_%7Bm%7D%29%5Cright%20%5C%7D, 其中
是示例 eq?x_%7Bi%7D 的真实标记.要评估学习器 eq?f的性能,就要把学习器预测结果 eq?f%28x%29
与真实标记 eq?y 进行比较.

回归任务最常用的性能度量是“均方误差”eq?%28mean%5C%20squared%5C%20error%29

                       eq?E%28f%3BD%29%20%3D%20%5Cfrac%7B1%7D%7Bm%7D%5Csum_%7Bi%3D1%7D%5E%7Bm%7D%28f%28x_%7Bi%7D%29%20-%20y_%7Bi%7D%29%5E%7B2%7D%20.

更一般的,对于数据分布D和概率密度函数eq?p%28%5Ccdot%20%29,均方误差可描述为

                        eq?E%28f%3BD%29%20%3D%20%5Cint_%7Bx%5Csim%20D%7D%5E%7B%7D%28f%28x%29%20-%20y%29%5E%7B2%7Dp%28x%29dx%20.

 而分类常用的性能度量有:

错误率与精度

这两种度量既适用于二分类任务,也使适用于多分类任务。错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例.对样例集eq?D, 分
错误率定义为

                         eq?E%28f%3BD%29%20%3D%20%5Cfrac%7B1%7D%7Bm%7D%5Csum_%7Bi%3D1%7D%5E%7Bm%7D%28f%28x_%7Bi%7D%29%20%5Cneq%20y_%7Bi%7D%20%29.

精度定义为

                         eq?acc%28f%3BD%29%20%3D%20%5Cfrac%7B1%7D%7Bm%7D%5Csum_%7Bi%20%3D%201%7D%5E%7Bm%7D%28f%28x_%7Bi%7D%29%20%3D%20y_%7Bi%7D%29%20%3D%201%20-%20E%28f%3BD%29%20.

 更一般的,对于数据分布eq?D和概率密度函数eq?p%28%5Ccdot%20%29,错误率与精度可分别描述为

                         eq?E%28f%3BD%29%20%3D%20%5Cint_%7Bx%5Csim%20D%7D%5E%7B%7D%28f%28x%29%20%5Cneq%20y%29p%28x%29dx%20.

                          eq?acc%28f%3BD%29%20%3D%201-E%28f%3BD%29%20.

查准率eq?%28precision%29查全率eq?%28recall%29eq?%5Ctextcolor%7Bred%7DF%5Ctextcolor%7Bred%7D1

也叫准确率eq?%28precision%29召回率eq?%28recall%29 .

错误率和精度虽常用,但并不能满足所有任务需求.例如在信息检索中,我们经常会关心"检索出的信息中有多少比例是用户感兴趣的" "用户感兴趣的信息中有多少被检索出来了" . 而"查准率"与"查全率"是更为适用于此类需求的性能度量 .

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例 (false positive) 、真反倒(true negative) 、假反例 (false negative) 四种情形,令 TP、 FP、 TN、 FN 分别表示其对应的样例数,则显然有 TP+FP+TN+FN=样例总数(Samples).分类结果的"混淆矩阵" (confusion matrix),如下表所示.

真实情况                                预测结果
正例反例
正例eq?TPeq?FN
反例eq?FPeq?TN

查准率 P 与查全率 R 分别定义为

                                             eq?P%20%3D%20%5Cfrac%7BTP%7D%7BTP+FP%7D%2C%20R%20%3D%20%5Cfrac%7BTP%7D%7BTP+FN%7D%20.
查准率和查全率是一对矛盾的度量.一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低.

则将两者综合考虑时,eq?%5Ctextcolor%7Bred%7DF%5Ctextcolor%7Bred%7D1度量则经常会被用到:      (eq?F1是基于查准率与查全率的调和平均(harinonic  mean)定义的)

                                                eq?F1%20%3D%20%5Cfrac%7B2%5Ctimes%20P%5Ctimes%20R%7D%7BP+R%7D%20%3D%20%5Cfrac%7B2%5Ctimes%20TP%7D%7BSamples%20+%20TP%20-%20TN%7D%20.

在一些应用场景中,对查准率和查全率的重视程度有所不同.则会出现eq?F1度量的一般形式 ——eq?%5Ctextcolor%7Bred%7DF_%7B%5Ctextcolor%7Bred%7D%5Cbeta%20%7D 能让我们表达出对查准率/查全率的不同偏好,它定义为

                                             eq?F_%7B%5Cbeta%20%7D%20%3D%20%5Cfrac%7B%281%20+%20%5Cbeta%20%5E%7B2%7D%29%5Ctimes%20P%5Ctimes%20R%7D%7B%28%5Cbeta%20%5E%7B2%7D%5Ctimes%20P%29+R%7D%20.

(其中eq?%5Cbeta%20%3E%200度量了查全率对查准率的相对重要性;eq?%5Cbeta%20%3D%201时退化为标准的eq?F1eq?%5Cbeta%20%3E%201时查全率有更大影响;eq?%5Cbeta%20%3C%201时查准率有更大影响)

因此赛题中评价指标f1_score即为eq?F1性能度量指标.

解题思路(对baseline的解读)

任务是基于训练集的样本数据,构建一个模型来预测测试集中用户的新增情况。这是一个二分类任务,其中目标是根据用户的行为、属性以及访问时间等特征,预测该用户是否属于新增用户。具体来说,我们需要利用给定的数据集进行特征工程、模型选择和训练,然后使用训练好的模型对测试集中的用户进行预测,并生成相应的预测结果.

而解决机器学习问题时,一般会按以下步骤进行:

61e4521b045f4bb098bf17086f995156.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值