- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 双塔的前世今生(Deep Structured Semantic Models)
双塔学习笔记(Deep Structured Semantic Models)总体框架一、纸上得来终觉浅1、背景2、双塔的鼻祖(最初的双塔,重点讲解)3、百家争鸣(各路英雄对双塔的改进,主要讲解改进了哪里)4、双塔在推荐系统的表演(百度、谷歌)5、双塔的优缺点二、绝知此事要躬行实战篇 :双塔手助游戏推荐中的应用和效果。一、背景:DSSM 深度语义匹配模型最早是应用于 NLP 领域中计算语义相似度任务。因为语义匹配本身是一种排序问
2021-09-28 18:18:09
987
原创 如何通俗地理解支持向量机?
支持向量机一、支持向量机(SVM)的原理1、引言如图0所示,对于数据点,H1根本就分不开两类数据,于是它不是一个很好的决策边界;H2能将两类分开,但是它和两类数据之间的距离太小了,对于看不见的点或者验证数据集,他就不一定能很好地分隔两类了,这就有可能造成数据的过拟合,即在训练集上表现良好,但是在验证集和测试集上表现欠佳;而对于H3,它既能将两类很好的分隔开来,而且还保持了两个类的最极端点之间的最宽距离。他是最佳的决策边界。支持向量机(SVM)就是为了寻找这样的决策边界。图0:几种边.
2021-09-28 15:53:34
4004
原创 Mark 一下论文链接 AAAI 2020《An Iterative Polishing Framework based on Quality Aware Masked Language Model》
#Mark 一下论文链接,我要把他祖传下去。https://arxiv.org/abs/1911.13182
2020-04-15 11:25:40
263
原创 一些PYSPARK常用的方法
1.去重且保留最大/小值:from pyspark.sql import functions as Fdf.groupby(['columns1','columns2']).agg(F.max/min(column_name))2.将df按照某一列排序,取前n列from pyspark.sql.window import Windowdf.withColumn('rownumb...
2020-04-07 10:55:06
348
原创 召回-ALS(Alternating least Squares)-交替最小二乘
项目背景:使用星球联盟的每日必做#准备数据分类情况:情况 标签 仅曝光未点击未完成 0 仅一次点击未完成 1 仅多次点击未完成 2 仅一次完成 3 多次完成 4 1.数据来源:表mlg.xqlm_app_child_task,任务曝光数据表mlg.xqlm_app_taskfinish_details任...
2020-04-07 10:53:16
457
原创 GBDT排序算法
背景:星球联盟每日必做任务的推荐任务数据预处理:前三周的数据--------->最后一周的数据表:曝光表,点击表,完成表,每日必做任务表。特征工程:"customer_click_rate" : user点击率"customer_finish_rate":user完成率"task_click_rate":任务点击率"task_finish_rate":任务完...
2020-04-07 10:48:06
983
BERT NLP
2020-04-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人