推荐系列论文四-Real-time Personalization using Embeddings for Search Ranking at Airbnb(下)

前言 在上篇里介绍了这篇论文中对于listing的Embedding方式,通过对于objective的调整使得Embedding结果更加符合Airbnb的场景,从而将Embedding用于相似推荐以及提高搜索性能。 上述的Embedding主要针对用户的短时兴趣,因为利用的是用户的click se...

2019-06-24 01:09:11

阅读数 2

评论数 0

AUC到底是什么?

前言 上一篇单值AUC计算优化里,提到了AUC,AUC的全名是Area Under Curve,就是ROC曲线下的面积,上一篇文中提到了AUC是评估模型整体排序能力的,但是具体是什么没有进行展开介绍,考虑到可能很多人对这么个玩意都不是那么理解,因为网上大部分都是从ROC怎么画,AUC怎么算,AUC...

2019-06-21 00:52:55

阅读数 19

评论数 0

推荐系列论文四-Real-time Personalization using Embeddings for Search Ranking at Airbnb(上)

Real-time Personalization using Embeddings for Search Ranking at Airbnb 前言 这篇论文是KDD2018的best paper,来自Airbnb在搜索排序中利用Embedding进行实时个性化推荐的实践应用,和之前的Embe...

2019-06-20 02:01:46

阅读数 46

评论数 0

单值AUC的计算优化

单值AUC AUC主要用于评估当前模型的排序能力,假设一共有m条正样本和n条负样本,模型为model,那么通过model可以对其中每一条记录进行预测并获得概率值。 对于m条正样本和n条负样本,一共可以有mn中二元组合方式,每个二元组包括一条正样本和一条负样本,对所有的二元组使用model进...

2019-06-19 22:56:14

阅读数 24

评论数 0

推荐系列论文三:Word2vec

前言 前面提到过在Embedding这块,绕不开的就是Word2vec,今天就简单为大家介绍一下Word2vec,现在网络上有许多写的很多的介绍Word2vec的文章,因此本文也主要是引用这些文章来对Word2vec进行介绍(主要是懒),参考的内容见文末。 什么是Word2vec? Wo...

2019-06-18 00:42:23

阅读数 21

评论数 0

推荐系列论文二:Deep Walk

DeepWalk: Online Learning of Social Representations 本系列分享论文的第二篇是DeepWalk,下面从头开始一起读一下这篇论文。 什么是DeepWalk? 用论文中的话来说:“DeepWalk takes a graph as input...

2019-06-14 00:29:20

阅读数 17

评论数 0

推荐系列论文一:Item2vec

前言 之前开了一个CTR预估系列,目前仅更新了一篇FM的文章,想再开一个论文系列,记录一下一些经典的论文在实际中的应用。 最近工作在做Embedding相关的一些工作所以开始的几篇主要围绕一些经典的Embedding来做。 Embedding 第一个问题,什么是Embedd...

2019-06-12 23:52:44

阅读数 39

评论数 0

CTR预估模型1-FM

前言 很久没更新过东西了,想记录一下学习过程,开一个CTR预估的系列,希望可以一直坚持更新吧~ FM背景 LR的缺点: 线性模型无法学习特征间的交互信息 特征组合对于实际的效果显著 人为进行特征交叉由于用户行为的稀疏导致参数无法有效更新 特征组合的有效性 举个简单的例子,在预测一个用...

2019-05-23 00:22:13

阅读数 20

评论数 0

在jupyter notebook上引用pyspark

最近都是直接使用pyspark shell或者用pycharm来写spark的代码,但是在处理数据或者看训练结果的时候还是jupyter notebook方便太多太多,但是在jupyter中没办法引入pyspark,导致不太方便,这里记录一下在jupyter notebook引入pyspark的...

2018-06-22 17:31:12

阅读数 1662

评论数 0

使用sklearn进行数据预处理之Binarizer,LabelEncoder,LabelBinarizer,OneHotEncoder

前言 数据预处理的过程中经常需要对数据进行数值化等处理,比如将性别男女转换为计算机可以理解的1和0,还有将数值化的1,2,3,4,5按照阈值3转换为0,0,0,1,1等,下面介绍一下sklearn提供的类。 Binarizer 这个就是根据阈值将数值型转变为二进制型,阈值可以进行设定,另...

2018-04-19 19:19:19

阅读数 1880

评论数 0

scikit-learn估计器学习系列 ---- 1.线性回归番外篇-Lasso回归,Ridge回归和ElasticNet

前言 前面光说了线性回归,忘记写带有正则项的回归了,这里补上。 主要的正则方式有L0范数,L1范数和L2范数,L0范数由于计算困难所以一般都不采用,而是使用效果近似的L1范数,下面分别介绍下两个范数的区别。 为什么需要正则化 因为希望得到更好的泛化误差,训练是很容易过拟合的,引入非...

2018-04-18 11:14:58

阅读数 336

评论数 0

scikit-learn估计器学习系列 ---- 2.LogisticRegression逻辑回归

逻辑回归 逻辑回归简介 逻辑回归主要用于进行分类,最基本的逻辑回归是二分类问题,由于实数域为负无穷到正无穷,但是如果我们希望输出概率那么范围便是[0,1],有个很有名的函数叫sigmoid函数,可以使用sigmoid来对输出进行压缩,第一篇中讲解了最小二乘也就是平方损失的由来,是对预测值与...

2018-04-17 22:46:11

阅读数 1101

评论数 0

scikit-learn估计器学习系列 ---- 1.LinearRegression线性回归

scikit-learn系列 希望跟着scikit-learn的文档系统地学习各个估计器,针对每个估计器也会加入自己对这些估计器的看法和知识,算是巩固学习。 估计器的顺序目前的想法大概是下面列的顺序,会介绍api中每个估计器的参数,有的可能会给点调参的经验,另外还会列出估计器的方法,包含的属性...

2018-04-16 16:24:06

阅读数 515

评论数 0

SVM详细讲解

转自:https://blog.csdn.net/myarrow/article/details/51261971 1. 目标      SVM是一个二类分类器,它的目标是找到一个超平面,使用两类数据离超平面越...

2018-04-15 20:02:51

阅读数 8486

评论数 1

Pandas库中进行DataFrame的合并(pd.merge())和连接(pd.concat())方法

引言 如果小伙伴使用过mysql,那么肯定知道mysql有join查询来连接多个表,这在数据处理中有时非常有用,对于强大的Pandas库来说,当然也有这种功能,而且Pandas也提供了将不同的DataFrame进行连接的操作,下面挨个介绍,并会加上实例 pd.merge() | pd.jo...

2018-04-15 15:24:56

阅读数 6222

评论数 0

pandas库中DataFrame对象的索引方式总结

DataFrame对象有多种比较方便的索引方式,以下一一进行总结 DataFrame对象为df 1. df[val] 这边注意,返回的是DataFrame的副本,而不是视图 其中val可以是 1. 列名,也就是columns名,可以是单个列或者是由列名组成的列表,如果是单个列名则返...

2018-04-12 19:39:25

阅读数 1840

评论数 0

决策树特征分裂为何不选择最小化训练误差?

在博客上看到有博主说是因为使用最小化训练误差可能会导致过拟合,所以没有选择,感觉理解的似乎有点问题,这边给出自己的一些理解。 1.首先一点,线性回归,逻辑回归等都是要基于最小化训练误差来做,应该是基本所有的分类算法都是要最小化训练误差的,只是损失函数的不同导致选择的目标函数不同的原因,不太会因为...

2018-04-09 15:14:01

阅读数 670

评论数 0

k折验证中k值对偏差和方差的影响

csdn上看到有个标题党,进去什么都没说,这里给一下k值对偏差和方差的影响。 当k值很小时,这里不妨假设为2,那么每次训练集大小为n/2,每次训练的数据量会偏小,那么毫无疑问会导致模型训练的偏差会偏大,方差偏小。 当k值很大时,假设为n折,那么每次训练集的大小为n-1,几乎等于原始数据集的大小...

2018-04-07 22:38:35

阅读数 651

评论数 1

numpy中stack()的方法的作用

np.stack() np.stack()方法大家肯定经常遇到,但是对于stack()的具体作用可能不一定非常明确,这里结合实例以及官方文档作用解释。 Parameters: arrays : sequence of array_like Each array must have t...

2018-03-31 12:56:12

阅读数 7423

评论数 2

numpy与pandas常用函数

一、常用链接: 1.Python官网:https://www.python.org/ 2.各种库的whl离线安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn 3.数据分析常用库的离线安装包(pip+wheels)(百度云...

2018-03-08 16:42:03

阅读数 1202

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭