自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 天池-零基础入门推荐系统-新闻推荐-排序模型和模型融合

排序通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到了最终

2020-12-07 10:21:07 155

原创 天池-零基础入门推荐系统-新闻推荐-特征工程

天池-零基础入门推荐系统-新闻推荐-特征工程制作特征和标签, 转成监督学习问题我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征

2020-12-03 22:53:13 162

原创 天池 零基础入门推荐系统 新闻推荐--多路召回

天池 零基础入门推荐系统 新闻推荐–多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。可以使用多种不同的策略来获取用户排

2020-11-30 23:06:32 332

原创 天池-新闻推荐-用户行为预测入门赛-数据分析

天池-新闻推荐-用户行为预测入门赛-数据分析天池-新闻推荐-用户行为预测入门赛-数据分析价值和意义导入包读取数据数据预处理数据浏览如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入天池-新闻推荐-用户行为预测入门赛-数据分析这时进行数据分析的相关内容,借此机会再次熟悉了解pandas以及numpy等库的

2020-11-27 23:30:42 362

原创 天池-新闻推荐-用户行为预测入门赛-baseline

天池-新闻推荐-用户行为预测入门赛-baseline推荐系统入门赛事对赛题的理解对数据的理解对赛题的理解Baseline最后得到的score阿里云竞赛链接推荐系统入门赛事推荐系统的入门赛事,目的是掌握推荐比赛的基本pipeline。前置知识,python语言,推荐系统的零星基础。前段时间恰好做过基于矩阵分解,协同过滤,以及GBDT+LR的大作业,这里正好复习一下。对赛题的理解赛题理解是切入一道赛题的基础,会影响后续特征工程和模型构建等各种工作,也影响着后续发展工作的方向,正确了解赛题背后的思想以及赛

2020-11-25 23:38:40 376

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除