AI
文章平均质量分 88
知天易or逆天难
为往圣继绝学
展开
-
tf.feature_columns api
tf.feature_columns api对官方的api进行了下简单的整理,方便一次性看,内容基本都是搬自tensorflow的官方api,大家可以到tensorflow官方api上查看更加详细的内容。tensorflow的特征处理apitensorflow提供了feature_columns api来处理特征,基本上涵盖了我们所有使用到的特征类别,下面一一简单列举。Bucketized...原创 2019-10-19 16:06:50 · 775 阅读 · 0 评论 -
推荐系列论文二:Deep Walk
DeepWalk: Online Learning of Social Representations本系列分享论文的第二篇是DeepWalk,下面从头开始一起读一下这篇论文。什么是DeepWalk?用论文中的话来说:“DeepWalk takes a graph as input and produces a latent representation as an output.”。也就...原创 2019-06-14 00:29:20 · 2156 阅读 · 0 评论 -
单值AUC的计算优化
单值AUCAUC主要用于评估当前模型的排序能力,假设一共有m条正样本和n条负样本,模型为model,那么通过model可以对其中每一条记录进行预测并获得概率值。对于m条正样本和n条负样本,一共可以有mn中二元组合方式,每个二元组包括一条正样本和一条负样本,对所有的二元组使用model进行预测,倘若正样本的概率值大于负样本则加1,统计所有的和,将该和除以mn就是AUC值。这种说法并不那么的...原创 2019-06-19 22:56:14 · 5103 阅读 · 0 评论 -
推荐系列论文四:Real-time Personalization using Embeddings for Search Ranking at Airbnb(上)
Real-time Personalization using Embeddings for Search Ranking at Airbnb前言这篇论文是KDD2018的best paper,来自Airbnb在搜索排序中利用Embedding进行实时个性化推荐的实践应用,和之前的Embedding一样均是以word2vec为基础技术(w2v大法好),但是这次Airbnb在实践中根据自己的业务...原创 2019-06-20 02:01:46 · 805 阅读 · 0 评论 -
AUC到底是什么?
前言上一篇单值AUC计算优化里,提到了AUC,AUC的全名是Area Under Curve,就是ROC曲线下的面积,上一篇文中提到了AUC是评估模型整体排序能力的,但是具体是什么没有进行展开介绍,考虑到可能很多人对这么个玩意都不是那么理解,因为网上大部分都是从ROC怎么画,AUC怎么算,AUC代表什么,但是为什么代表这些含义却都没有提到,所以这次就专门写了一篇来介绍什么是AUC。ROC首先...原创 2019-06-21 00:52:55 · 43440 阅读 · 4 评论 -
推荐系列论文三:Word2vec
前言前面提到过在Embedding这块,绕不开的就是Word2vec,今天就简单为大家介绍一下Word2vec,现在网络上有许多写的很多的介绍Word2vec的文章,因此本文也主要是引用这些文章来对Word2vec进行介绍(主要是懒),参考的内容见文末。什么是Word2vec?Word2vec由来自google的Mikolov于2013年发表的《Efficient estimation o...原创 2019-06-18 00:42:23 · 4260 阅读 · 0 评论 -
推荐系列论文四:Real-time Personalization using Embeddings for Search Ranking at Airbnb(下)
前言在上篇里介绍了这篇论文中对于listing的Embedding方式,通过对于objective的调整使得Embedding结果更加符合Airbnb的场景,从而将Embedding用于相似推荐以及提高搜索性能。上述的Embedding主要针对用户的短时兴趣,因为利用的是用户的click session形成的序列,这种Embedding均是基于用户短时偏好的连续性并且借助总体的用户群来对每个l...原创 2019-06-24 01:09:11 · 441 阅读 · 0 评论 -
推荐系列论文五:Deep & Cross Network for Ad Click Predictions
论文地址Deep & Cross Network for Ad Click Predictions前言这次分享一下来自Standford和google联合发表的Deep&Cross Network,该篇文章主要工作是提出了Cross的结构来进行高阶的特征组合并且引入线性时间复杂度,模型的结构与Wide&Deep类似,不同的地方主要在于在Wide&Deep中,W...原创 2019-07-04 00:18:33 · 576 阅读 · 5 评论 -
推荐系列论文六:Wide & Deep Learning for Recommender Systems
论文地址Wide & Deep Learning for Recommender Systems前言上一篇更新了DCN,觉得还是有必要更新一下Wide&Deep,毕竟这是许多企业实际落地使用的算法(可能不少使用的是DeepFM,但是思想都是一致的),这篇就给了google2016年发表的Wide&Deep,下面来看一下Wide&Deep的主要内容与思想。Ab...原创 2019-07-05 00:17:11 · 451 阅读 · 0 评论 -
推荐系列论文七-FNN与实践
Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction论文地址前言该篇论文于2016年发表,提出了基于FM预训练获取离散特征embedding表示,结合DNN来进行CTR的预估,因为思想比较简洁,放在2019年来看已经不算特别新奇了,因此简单地过一下论文内容,然后再做...原创 2019-08-11 22:56:43 · 1792 阅读 · 0 评论 -
Word2vec-tensorflow版实现
Word2vec-tf版实现word2vec思想cbow的核心思想是利用上下文单词预测当前单词,skip-gram的核心思想是利用当前中心词预测上下文,HS的核心思想是为每个单词构建一棵huffman树,树上每个节点都拥有对应的隐向量,从而根据路径来计算单词的概率,NG的核心思想是每个单词都对应一个隐向量,然后进行负采样从而构建正负样本来进行预测。skip-gram这里主要说一下skip-...原创 2019-08-15 22:55:33 · 523 阅读 · 0 评论 -
推荐系列论文八-ESMM-完整空间下的多任务学习
ESMM-Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate论文地址前言这次带来阿里妈妈团队于18年发表在SIGIR的一篇多任务学习的文章,主要基于多任务学习的思想对CVR问题进行优化预估。背景首先说一下广告收费的形式,包括多种:cpt的广告按...原创 2019-08-23 00:18:44 · 2063 阅读 · 0 评论 -
ctr预估中的评估指标及校准
ctr预估中的评估指标及校准背景最近在实际的工作中发现离线指标与线上指标并非线性吻合关系,因此对离线指标的评估产生了一些思索,因此这里复盘一下ctr预估中的常用评估指标,并附上自己的思考。为什么要做ctr预估?对于常见的推荐问题而言,并不是太关注模型输出概率的绝对值大小而更关注的相对大小,即排序。广告等ctr预估模型中,由于最终的排序还要乘以bid,因此对于ctr的准确度要求非常高,举...原创 2019-10-10 00:53:51 · 14690 阅读 · 7 评论 -
推荐系列论文一:Item2vec
前言之前开了一个CTR预估系列,目前仅更新了一篇FM的文章,想再开一个论文系列,记录一下一些经典的论文在实际中的应用。最近工作在做Embedding相关的一些工作所以开始的几篇主要围绕一些经典的Embedding来做。Embedding第一个问题,什么是Embedding?Embedding中文是嵌入,最重要的作用是将一些离散的特征嵌入到另一个维度空间利用一串向量进行表示,并且...原创 2019-06-12 23:52:44 · 2861 阅读 · 0 评论 -
CTR预估模型1-FM
前言很久没更新过东西了,想记录一下学习过程,开一个CTR预估的系列,希望可以一直坚持更新吧~FM背景LR的缺点:线性模型无法学习特征间的交互信息特征组合对于实际的效果显著人为进行特征交叉由于用户行为的稀疏导致参数无法有效更新特征组合的有效性举个简单的例子,在预测一个用户是否会对剃须刀感兴趣时,性别男+剃须刀的组合特征相应权重可能更大,意味着二者共同出现时感兴趣的可能性...原创 2019-05-23 00:22:13 · 474 阅读 · 0 评论 -
对信号卷积的理解
信号卷积卷积主要分为离散函数的卷积以及连续函数的卷积,理解其中一种后对另外一个也基本就了解了大致的定义,官方化的定义难以理解,简单地说在信号领域,卷积就是求给定输入以及相应信号后得出的输出信号。我介绍一下自己的理解。主要分为两步:进行卷积的两个信号一个我们称之为输入信号,也就是我们给系统的输入,另一个信号我们称之为响应信号。下一步则是进行卷积,这里我们以连续信号来进行举例说明。倘若输入...原创 2017-10-19 15:07:01 · 9245 阅读 · 2 评论 -
k折验证中k值对偏差和方差的影响
csdn上看到有个标题党,进去什么都没说,这里给一下k值对偏差和方差的影响。当k值很小时,这里不妨假设为2,那么每次训练集大小为n/2,每次训练的数据量会偏小,那么毫无疑问会导致模型训练的偏差会偏大,方差偏小。当k值很大时,假设为n折,那么每次训练集的大小为n-1,几乎等于原始数据集的大小了,那么很明显更容易学习到样本的原始分布并且很可能过拟合,这种结果将导致模型的偏差偏小,但是方差偏大。...原创 2018-04-07 22:38:35 · 3659 阅读 · 5 评论 -
决策树特征分裂为何不选择最小化训练误差?
在博客上看到有博主说是因为使用最小化训练误差可能会导致过拟合,所以没有选择,感觉理解的似乎有点问题,这边给出自己的一些理解。1.首先一点,线性回归,逻辑回归等都是要基于最小化训练误差来做,应该是基本所有的分类算法都是要最小化训练误差的,只是损失函数的不同导致选择的目标函数不同的原因,不太会因为可能过拟合而不选择最小化训练误差。2.第二点,决策树的生成是递归生成,并且是贪心地生成的,无法保证...原创 2018-04-09 15:14:01 · 2814 阅读 · 1 评论 -
Pandas库中进行DataFrame的合并(pd.merge())和连接(pd.concat())方法
引言如果小伙伴使用过mysql,那么肯定知道mysql有join查询来连接多个表,这在数据处理中有时非常有用,对于强大的Pandas库来说,当然也有这种功能,而且Pandas也提供了将不同的DataFrame进行连接的操作,下面挨个介绍,并会加上实例pd.merge() | pd.join()merge和join方法都可以用于DF的合并,不过有些区别。 先看一下pd.merge(...原创 2018-04-15 15:24:56 · 25743 阅读 · 1 评论 -
SVM详细讲解
转自:https://blog.csdn.net/myarrow/article/details/512619711. 目标 SVM是一个二类分类器,它的目标是找到一个超平面,使用两类数据离超平面越远越好,从而对新的数据分类更准确,即使分类器更加健壮。 支持向量(Support Vetor):就是离分隔超平...转载 2018-04-15 20:02:51 · 73432 阅读 · 5 评论 -
使用sklearn进行数据预处理之Binarizer,LabelEncoder,LabelBinarizer,OneHotEncoder
前言数据预处理的过程中经常需要对数据进行数值化等处理,比如将性别男女转换为计算机可以理解的1和0,还有将数值化的1,2,3,4,5按照阈值3转换为0,0,0,1,1等,下面介绍一下sklearn提供的类。Binarizer这个就是根据阈值将数值型转变为二进制型,阈值可以进行设定,另外只能对数值型数据进行处理,且传入的参数必须为2D数组,也就是不能是Series这种类型,shape为...原创 2018-04-19 19:19:19 · 13111 阅读 · 3 评论 -
在jupyter notebook上引用pyspark
最近都是直接使用pyspark shell或者用pycharm来写spark的代码,但是在处理数据或者看训练结果的时候还是jupyter notebook方便太多太多,但是在jupyter中没办法引入pyspark,导致不太方便,这里记录一下在jupyter notebook引入pyspark的方法。环境:anaconda(推荐所有人都装,非常的方便)python3.6,spark2.0,操作...原创 2018-06-22 17:31:12 · 8157 阅读 · 2 评论