竞赛
Qinyang_Hu
这个作者很懒,什么都没留下…
展开
-
【天池大赛】快来一起挖掘幸福感 -- 简介
赛题背景 赛题尝试了幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合多学科各自优势,挖掘潜在的影响因素,发现更多可解释、可理解的相关关系。 赛题说明 赛题使用公开数据的问卷调查结果,选取其中多组变量,包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等),来预测其对幸福感的评价。 数据说明 考虑到变量个数较多,部分变量间关系复杂,数据分为完整版和精简版两类。可从精简版入手熟悉赛题后,使用完整原创 2021-01-28 21:22:53 · 738 阅读 · 1 评论 -
Task 05 排序模型 + 模型融合
通过召回的操作,我们已经进行了问题规模的缩减,对每个用户选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征以及用户本身的属性特征、文章本身的属性特征,用户与文章之间的特征。下面就是使用机器学习模型来构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章作为最终的结果。 排序阶段选择了三个比较有代表性的排序模型,它们分别是: 1.LGB的排序模型。 2.LGB的分类模型。 3.深度学习的分类模型DIN。 得到了最终的排序模型原创 2020-12-06 22:15:29 · 253 阅读 · 1 评论 -
Task 04 特征工程
1. 制作特征和标签,转成监督学习问题 我们先捋一下基于原始的给定数据,有哪些特征可以利用:\ 文章的自身特征: category_id表示这文章的类型,created_at_ts表示文章建立的时间,这个变量着眼于文章的时效性,words_count是文章的字数,一般字数太长我们不太喜欢点击,也不排除有人就喜欢读长文。 文章的内容embedding特征,这个召回的时候用过,这里可以选择使用,也可以选择不用,也可以尝试其他类型的embedding特征,比如W2V等。 用户的设备特征信息 上面这些直接可以用原创 2020-12-03 22:11:46 · 139 阅读 · 0 评论 -
Task03 多路召回
所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在计算速度和召回率之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。 导包 import pandas as pd import numpy as np from tqdm import tqdm from collections import defaultdict imp原创 2020-11-30 22:37:45 · 162 阅读 · 0 评论 -
Task02 数据分析
数据分析 数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。 建议: 当特征工程和模型调参已经很难继续上分了,可以回来重新从新的角度去分析这些数据,或许可以找到上分的灵感。 字段表 user_id — 用户id click_article_id原创 2020-11-27 22:09:15 · 168 阅读 · 0 评论 -
Task01: 赛题理解+Baseline
机器学习欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编原创 2020-11-25 20:29:35 · 277 阅读 · 0 评论