Datawhale 第三期夏令营笔记(1)

听涛の松海

已于 2023-08-18 20:24:40 修改

阅读量72

点赞数

文章标签：笔记 python 机器学习

于 2023-08-18 20:12:32 首次发布

本文链接：https://blog.csdn.net/m0_74894347/article/details/131622735

版权

文章讲述了如何理解和应用在一个涉及约62万训练样本和20万测试样本的二分类赛题中，使用f1_score作为评价指标，预测用户新增情况的过程，包括性能度量、特征工程和模型构建策略。

摘要由CSDN通过智能技术生成

赛题信息

赛题数据

约62万条训练集、20万条测试集数据.

每条数据包含13个字段. 其中uuid为样本唯一标识，eid为访问行为ID，udmap为行为属性，其中的key1到key9表示不同的行为属性，如项目名、项目id等相关字段，common_ts为应用访问记录发生时间（毫秒时间戳），其余字段x1至x8为用户相关的属性，为匿名处理字段。target字段为预测目标，即是否为新增用户.

赛题目标

需要基于提供的样本构建模型，预测用户的新增情况.

赛题评价指标

竞赛的评价标准采用f1_score，分数越高，效果越好 .

赛题理解

由任务目标可知，此次赛题是典型的二分类问题 .而要理解竞赛评价标准中的f1_score，就要先理解性能度量的一些指标. (注：此部分来自大佬讲解与机器学习西瓜书)

性能度量

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需
要有衡量模型泛化能力的评价标准.

在预测任务中，给定样例集 $eq?D%20%3D%20%5Cleft%20%5C%7B%20%28x_%7B1%7D%2Cy_%7B1%7D%29%2C%28x_%7B2%7D%2Cy_%7B2%7D%29%2C...%2C%28x_%7Bm%7D%2Cy_%7Bm%7D%29%5Cright%20%5C%7D$ ，其中
是示例 $eq?x_%7Bi%7D$ 的真实标记.要评估学习器 $eq?f$ 的性能，就要把学习器预测结果 $eq?f%28x%29$
与真实标记 $eq?y$ 进行比较.

回归任务最常用的性能度量是“均方误差” $eq?%28mean%5C%20squared%5C%20error%29$

$eq?E%28f%3BD%29%20%3D%20%5Cfrac%7B1%7D%7Bm%7D%5Csum_%7Bi%3D1%7D%5E%7Bm%7D%28f%28x_%7Bi%7D%29%20-%20y_%7Bi%7D%29%5E%7B2%7D%20.$

更一般的，对于数据分布D和概率密度函数 $eq?p%28%5Ccdot%20%29$ ,均方误差可描述为

$eq?E%28f%3BD%29%20%3D%20%5Cint_%7Bx%5Csim%20D%7D%5E%7B%7D%28f%28x%29%20-%20y%29%5E%7B2%7Dp%28x%29dx%20.$

而分类常用的性能度量有：

错误率与精度

这两种度量既适用于二分类任务，也使适用于多分类任务。错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例.对样例集 $eq?D$ ，分
类错误率定义为

$eq?E%28f%3BD%29%20%3D%20%5Cfrac%7B1%7D%7Bm%7D%5Csum_%7Bi%3D1%7D%5E%7Bm%7D%28f%28x_%7Bi%7D%29%20%5Cneq%20y_%7Bi%7D%20%29.$

精度定义为

$eq?acc%28f%3BD%29%20%3D%20%5Cfrac%7B1%7D%7Bm%7D%5Csum_%7Bi%20%3D%201%7D%5E%7Bm%7D%28f%28x_%7Bi%7D%29%20%3D%20y_%7Bi%7D%29%20%3D%201%20-%20E%28f%3BD%29%20.$

更一般的，对于数据分布 $eq?D$ 和概率密度函数 $eq?p%28%5Ccdot%20%29$ ，错误率与精度可分别描述为

$eq?E%28f%3BD%29%20%3D%20%5Cint_%7Bx%5Csim%20D%7D%5E%7B%7D%28f%28x%29%20%5Cneq%20y%29p%28x%29dx%20.$

$eq?acc%28f%3BD%29%20%3D%201-E%28f%3BD%29%20.$

查准率 $eq?%28precision%29$ 、查全率 $eq?%28recall%29$ 与 $eq?%5Ctextcolor%7Bred%7DF%5Ctextcolor%7Bred%7D1$

也叫准确率 $eq?%28precision%29$ 与召回率 $eq?%28recall%29$ .

错误率和精度虽常用，但并不能满足所有任务需求.例如在信息检索中，我们经常会关心"检索出的信息中有多少比例是用户感兴趣的" "用户感兴趣的信息中有多少被检索出来了" . 而"查准率"与"查全率"是更为适用于此类需求的性能度量 .

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例 (false positive) 、真反倒(true negative) 、假反例 (false negative) 四种情形，令 TP、 FP、 TN、 FN 分别表示其对应的样例数，则显然有 TP+FP+TN+FN=样例总数(Samples).分类结果的"混淆矩阵" (confusion matrix)，如下表所示.

真实情况	预测结果
真实情况	正例	反例
正例	$eq?TP$	$eq?FN$
反例	$eq?FP$	$eq?TN$

查准率 P 与查全率 R 分别定义为

$eq?P%20%3D%20%5Cfrac%7BTP%7D%7BTP+FP%7D%2C%20R%20%3D%20%5Cfrac%7BTP%7D%7BTP+FN%7D%20.$
查准率和查全率是一对矛盾的度量.一般来说，查准率高时，查全率往往偏低;而查全率高时，查准率往往偏低.

则将两者综合考虑时， $eq?%5Ctextcolor%7Bred%7DF%5Ctextcolor%7Bred%7D1$ 度量则经常会被用到： ( $eq?F1$ 是基于查准率与查全率的调和平均(harinonic mean)定义的)

$eq?F1%20%3D%20%5Cfrac%7B2%5Ctimes%20P%5Ctimes%20R%7D%7BP+R%7D%20%3D%20%5Cfrac%7B2%5Ctimes%20TP%7D%7BSamples%20+%20TP%20-%20TN%7D%20.$

在一些应用场景中，对查准率和查全率的重视程度有所不同.则会出现 $eq?F1$ 度量的一般形式 —— $eq?%5Ctextcolor%7Bred%7DF_%7B%5Ctextcolor%7Bred%7D%5Cbeta%20%7D$ 能让我们表达出对查准率/查全率的不同偏好，它定义为

$eq?F_%7B%5Cbeta%20%7D%20%3D%20%5Cfrac%7B%281%20+%20%5Cbeta%20%5E%7B2%7D%29%5Ctimes%20P%5Ctimes%20R%7D%7B%28%5Cbeta%20%5E%7B2%7D%5Ctimes%20P%29+R%7D%20.$

(其中 $eq?%5Cbeta%20%3E%200$ 度量了查全率对查准率的相对重要性； $eq?%5Cbeta%20%3D%201$ 时退化为标准的 $eq?F1$ ； $eq?%5Cbeta%20%3E%201$ 时查全率有更大影响； $eq?%5Cbeta%20%3C%201$ 时查准率有更大影响)

因此赛题中评价指标f1_score即为 $eq?F1$ 性能度量指标.

解题思路(对baseline的解读)

任务是基于训练集的样本数据，构建一个模型来预测测试集中用户的新增情况。这是一个二分类任务，其中目标是根据用户的行为、属性以及访问时间等特征，预测该用户是否属于新增用户。具体来说，我们需要利用给定的数据集进行特征工程、模型选择和训练，然后使用训练好的模型对测试集中的用户进行预测，并生成相应的预测结果.

而解决机器学习问题时，一般会按以下步骤进行：

听涛の松海

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale 第三期夏令营笔记(1)

uuid为样本唯一标识，eid为访问行为ID，udmap为行为属性，其中的key1到key9表示不同的行为属性，如项目名、项目id等相关字段，common_ts为应用访问记录发生时间（毫秒时间戳），其余字段x1至x8为用户相关的属性，为匿名处理字段。错误率和精度虽常用，但并不能满足所有任务需求.例如在信息检索中，我们经常会关心"检索出的信息中有多少比例是用户感兴趣的" "用户感兴趣的信息中有多少被检索出来了" . 而"查准率"与"查全率"是更为适用于此类需求的性能度量 .而查全率高时，查准率往往偏低.
复制链接

扫一扫