weixin_42252147-CSDN博客

原创双塔的前世今生（Deep Structured Semantic Models）

双塔学习笔记（Deep Structured Semantic Models）总体框架一、纸上得来终觉浅1、背景2、双塔的鼻祖（最初的双塔，重点讲解）3、百家争鸣（各路英雄对双塔的改进，主要讲解改进了哪里）4、双塔在推荐系统的表演（百度、谷歌）5、双塔的优缺点二、绝知此事要躬行实战篇：双塔手助游戏推荐中的应用和效果。一、背景：DSSM 深度语义匹配模型最早是应用于 NLP 领域中计算语义相似度任务。因为语义匹配本身是一种排序问

2021-09-28 18:18:09 1005

原创如何通俗地理解支持向量机？

支持向量机一、支持向量机（SVM）的原理1、引言如图0所示，对于数据点，H1根本就分不开两类数据，于是它不是一个很好的决策边界；H2能将两类分开，但是它和两类数据之间的距离太小了，对于看不见的点或者验证数据集，他就不一定能很好地分隔两类了，这就有可能造成数据的过拟合，即在训练集上表现良好，但是在验证集和测试集上表现欠佳；而对于H3，它既能将两类很好的分隔开来，而且还保持了两个类的最极端点之间的最宽距离。他是最佳的决策边界。支持向量机（SVM）就是为了寻找这样的决策边界。图0：几种边.

2021-09-28 15:53:34 4009

原创 Mark 一下论文链接 AAAI 2020《An Iterative Polishing Framework based on Quality Aware Masked Language Model》

#Mark 一下论文链接，我要把他祖传下去。https://arxiv.org/abs/1911.13182

2020-04-15 11:25:40 263

原创记录一些自己学习的Scala语法

记录一些自己学习的Scala语法

2020-04-15 10:58:03 115

原创一些PYSPARK常用的方法

1.去重且保留最大/小值：from pyspark.sql import functions as Fdf.groupby(['columns1','columns2']).agg(F.max/min(column_name))2.将df按照某一列排序，取前n列from pyspark.sql.window import Windowdf.withColumn('rownumb...

2020-04-07 10:55:06 355

原创召回-ALS（Alternating least Squares）-交替最小二乘

项目背景：使用星球联盟的每日必做#准备数据分类情况：情况标签仅曝光未点击未完成 0 仅一次点击未完成 1 仅多次点击未完成 2 仅一次完成 3 多次完成 4 1.数据来源：表mlg.xqlm_app_child_task，任务曝光数据表mlg.xqlm_app_taskfinish_details任...

2020-04-07 10:53:16 458

原创 GBDT排序算法

背景：星球联盟每日必做任务的推荐任务数据预处理：前三周的数据--------->最后一周的数据表：曝光表，点击表，完成表，每日必做任务表。特征工程："customer_click_rate" ： user点击率"customer_finish_rate"：user完成率"task_click_rate"：任务点击率"task_finish_rate"：任务完...

2020-04-07 10:48:06 985

BERT NLP

An Iterative Polishing Framework based on Quality Aware Masked Language Model for Chinese Poetry Generation

2020-04-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人