自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 推荐系统 - 专栏目录

本文收录在推荐系统专栏,专栏系统化的整理推荐系统相关的算法和框架,并记录了相关实践经验,所有代码都已整理至推荐算法实战集合(hub-recsys)。通往机器学习算法工程师的进阶之路是崎岖险阻的,为了系统化的记录自己在推荐系统方向的学习和实践经验,特意开启了这个专栏进行了记录,主要涵盖「推荐系统基本概念」、「经典推荐算法」、「深度推荐算法」三大部分,并从原理和结构,优势和不足,实践和应用等方...

2020-04-12 18:57:38 205

原创 算法工作两年,我的思考和总结

18年毕业到现在,算法工程师的工作已过去两个年头,有挫败也有欢喜,感谢老板同事伙伴们的帮助。和工作第一年相比(我做算法工程师的第1年),在业务认识、工作方法、算法应用和落地有了不一样的体会和认识,趁着周末总结一番,与君共勉。|意愿和思维调整和工作第一年相比,我觉得最重要的一点是需要尽快的完成意愿和思维的调整,从任务思维快速转换至项目思维。任务思维:依赖他人对于任务的准确划分和定义,欠缺独立的思考和想法,容易陷入被动接受指导的境地,把按时完成任务作为自己工作成果的主要衡量指标,缺乏牵引和更深层次.

2020-06-06 18:34:51 483

原创 推荐系统 | KDD2019 阿里 Res-embedding for Deep Learning Based Click-Through Rate Prediction Modeling

这篇文章是阿里巴巴2019年KDD上的文章,区别以往在MLP层的改进,本篇文章更多关注embedding层的优化。可以带着以下几个问题进行论文阅读,1.为何需要改进Embedding层,2.数学推导证明改进Embedding对提升模型泛化性能的作用3. 如何改进embedding 及 res-embedding的设计4. 相关参数控制和实验结果论证目录1. 背景2. 理论分析2...

2020-05-21 15:53:10 1711 2

原创 推荐系统 - Google多目标学习MMOE(附tf2.0实现)

本文收录在推荐系统专栏,专栏系统化的整理推荐系统相关的算法和框架,并记录了相关实践经验,所有代码都已整理至推荐算法实战集合(hub-recsys)。1.背景何谓多任务,即在一个模型中考虑多个目标。在推荐系统中,往往需要同时优化多个业务目标,承担起更多的业务收益。如电商场景:希望能够同时优化点击率和转换率,使得平台具备更加的目标;信息流场景,希望提高用户点击率的基础上提高用户关注,点赞,...

2020-04-29 11:25:56 6565

原创 TensorFlow 2.0 | Tensor的维度变换整理

目录1. 张量变形(reshape)2. 维度增减2.1维度增加(expand_dims)2.2 维度删除(squeeze)3. 维度交换(transpose)4. 张量合并4.1 张量拼接(concat)4.2张量堆叠(stack)5. 张量分割(split)神经网络搭建过程中,维度变换是最重要的操作之一,通过切换数据形式,从而满足不同场景的运算...

2020-04-28 19:54:40 834

原创 排序学习(Learning to rank)综述

一:背景介绍在互联网搜索诞生之初,检索模型所依赖的特征是相对简单的,这些特征的设计主要是基于查询词与文档的匹配程度,所用到的信息比如TF-IDF等。在互联网不断发展的今天,更多复杂而有效设计的特征被应用到检索计算里面,比如查询与文档深层次匹配,网页pagerank等,人工参数调整已经不能满足需求,此时机器学习被应用到这项任务中,同时由于互联网海量数据的特点,比如展现点击日志,基于大数据的lea...

2020-04-25 21:05:50 1213

原创 推荐系统 - 矩阵分解(SVD)原理和实战

一. 特征分解1.1 特征求解:1.2 标准化:1.3 特征分解条件二. SVD2.1 定义2.2 求解方法2.3 相关特性 2.4 SVD的python实现2.5 SVD在PCA中的应用三. 推荐系统中的SVD3.1 问题定义3.2 SVD应用3.2.1 traditional-SVD3.2.2FunkSVD3.2.3 BiasSVD3.2.4SVD++3.3 矩阵分解推荐小结3.4 SVD实现用户评分预测(MovieLens数据

2020-04-11 16:19:55 6029 1

原创 推荐系统 - 深度兴趣网络DIN(Deep Interest Network)浅析和实现

本文收录在推荐系统专栏,专栏系统化的整理推荐系统相关的算法和框架,并记录了相关实践经验,所有代码都已整理至推荐算法实战集合(hub-recsys)。目录一. 论文浅析1.1 注意力机制-attention1.2激活函数-Dice1.3 评价指标-GAUC1.4自适应正则-Adaptive Regularization二.代码解读2.1 数据处理2.2 ...

2020-04-06 15:26:38 1523 1

原创 推荐系统 - FM模型原理和实践

一. FM概述FM(Factorization Machines,因子分解机),简称FM模型,由Steffen Rendle于2010年在ICDM上提出。FM模型是一种通用的预测方法,主要有以下的特点和优势,基于此在推荐系统和计算广告领域[如: CTR预估(click-through rate)]具备良好的表现。特征组合:除了单特征外,特征组合对于推荐排序是非常非常重要,的往往要对特...

2020-04-05 20:00:51 1631 1

原创 论文阅读:Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

本文是阿里发表在KDD 2018,基于Graph Embedding实现淘宝首页推荐召回。主要通过用户点击的行为历史构建item图,学习图上所有item的embedding。同时为了解决可扩展性(scalability)、稀疏性(sparsity)、冷启动问题(cold start),在Item图的基础上,增加 item 的额外信息(例如category, brand, price等)丰富ite...

2019-01-01 14:29:20 7299 9

原创 深度学习中的反向传播方法—BackPropagation

最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网络的基础了,但是很多人在学的时候总是会遇到一些问题,或者看到大篇的公式觉得好像很难就退缩了,其实不难,就是一个链式求导法则反复用。如果...

2018-12-19 16:40:47 1370 1

原创 TensorFlow学习笔记 —— tf.train.Optimizer

反正是要学一些API的,不如直接从例子里面学习怎么使用API,这样同时可以复习一下一些基本的机器学习知识。但是一开始开始和以前一样,先直接讲类和常用函数用法,然后举例子。 这里主要是各种优化器,以及使用。因为大多数机器学习任务就是最小化损失,在损失定义的情况下,后面的工作就交给优化器啦。 因为深度学习常见的是对于梯度的优化,也就是说,优化器最后其实就是各种对于梯度下降算法的优化。 理论部分可...

2018-12-13 21:42:36 2182

原创 TensorFlow学习笔记 —— tf.nn.nce_loss

Tensorflow 的NCE-Loss的实现和word2vec这两天因为实现mxnet的nce-loss,因此研究了一下tensorflow的nce-loss的实现。所以总结一下。先看看tensorflow的nce-loss的API:def nce_loss(weights, biases, inputs, labels, num_sampled, num_classes, ...

2018-12-13 17:08:43 913

原创 深度学习在推荐领域的应用lookalike

lookalike系统是帮助广告投放商利用种子用户找到相似的用户,实现更精准的营销触达的系统。常见的looklike可以分为显性定位和隐性定位,1.显性定位,根据用户标签直接定位,包括用户基本信息、兴趣等,需要实现对用户标签信息的挖掘2.隐性定位,利用算法进行定位 • 技术:机器学习当2012年Facebook在广告领域开始应用定制化受众(Facebook Custom Audienc...

2018-12-13 16:23:31 1610

原创 IJCAI-18 阿里妈妈搜索广告转化预测方案复现

开源代码:https://github.com/YouChouNoBB/ijcai-18-top2-single-mole-solution

2018-12-11 11:10:07 745

原创 iForest的算法原理和详解

"An outlier is an observation which deviates so much from other observations as to arouse suspicions that it was generated by a different mechanism."异常检测 (anomaly detection),或者又被称为“离群点检测” (outlier ...

2018-12-10 19:11:33 10095 1

原创 Local Outlier Factor(LOF) — 局部异常因子算法

占坑

2018-12-07 10:55:32 915

原创 常见的机器学习性能衡量方法

在构建模型并调优时,关键的一步是确认模型的评估标准。对于常见的监督学习而言,主要有分类和回归两类;1.回归的评价指标主要有MSE,RMSE,MAE。2.分类的评价指标有精确率、召回率、F1、AUC和ROC曲线。评价指标之间相互联系,同时而且相互之间是有关系的,只是侧重点不同。下面对所有评价指标展开介绍。1.回归a. 均方误差 (Mean Squared Error, MSE)均...

2018-12-01 15:26:12 579

原创 Xgboost原理、代码、调参和上线实录

对于一个算法工程师而言,xgboost应该算的上是起手式,网上也有各式各样的教程,这篇博客主要从原理、代码、调参和上线进行覆盖,进而构建一个直观的算法体系;   生成的二叉树是满二叉树还是完全二叉树? 调参方法param = {        # step size        'eta': 0.1,        # model param, the w...

2018-12-01 10:56:20 649 1

原创 TensorFlow学习笔记 —— 基础概念

计算图计算图是TensorFlow中最基本的一个概念,TensorFlow中的所有计算都会被转化为计算图上的节点。TensorFlow程序一般分为两个阶段。在第一个阶段需要定义计算图中所有的计算,第二个阶段为执行计算,得到计算结果。在TensorFlow程序中,系统会自动维护一个默认的计算图,通过tf.get_default_graph函数可以获取当前默认的计算图。除了使用默认的计算图...

2018-11-08 17:48:54 461

原创 几种常见的Graph Embedding方法

图(Graph)是一个常见的数据结构,现实世界中有很多很多任务可以抽象成图问题,比如社交网络,蛋白体结构,交通路网数据,以及很火的知识图谱等,甚至规则网络结构数据(如图像,视频等)也是图数据的一种特殊形式。针对graph的研究可以分成三类:1.简单的graph算法:如生成树算法,最短路算法,复杂一点的二分图匹配,费用流问题等等;2.概率图模型:将条件概率表达为图结构,并进一步挖掘,典型的有条件随...

2018-10-31 20:15:43 18470 2

原创 梯度下降及其优化算法综述

优化神经网络的模型参数时,梯度下降(Gradient Descent)是最常采用的方法之一,本文旨在让读者对梯度下降及其优化版本的算法有直观的认识。首先介绍梯度下降的三种变体(BGD,SGD,MBGD),总结三者在训练的过程中所面临的挑战,进而介绍常用的改进算法,包括这些算法在解决以上挑战时的动机以及导形式。梯度下降(GD)梯度下降算法(Gradient Descent Optimiz...

2018-10-26 11:16:18 998

原创 论文阅读:Real-time anomaly detection system for time series at scale

这篇文章主要从工业级的应用来说明如何搭建一个异常检测的系统。

2018-10-21 16:10:21 641

原创 Shell常用命令

列出当天访问次数最多的IP命令:cut -d- -f 1 /usr/local/apache2/logs/access_log |uniq -c | sort -rn | head -20原理:       cut       -d, --delimiter=DELIM              use DELIM instead of TAB for field delimiter...

2018-10-18 10:14:06 217

原创 论文阅读: Anomaly Detection with Partially Observed Anomalies

对于异常检测而言,通常是根据标签是否可用而采取监督或者无监督的方式。论文提出一种新的方法,部分观测到异常,针对大量未标记的数据和少量已经标记为异常的数据,提出了一种ADOA的两阶段检测方法。首先聚类未标签数据确信正常和可能异常。然后再用加群多分类方法来给出对应类别的置信度。对于无标签的数据而言,常用的无监督行为Distance based approaches [26], density ba...

2018-10-15 09:23:32 1194

原创 论文阅读: Taxi or Hitchhiking: Predicting Passenger’s Preferred Service on Ride Sharing Platforms

这是滴滴2018年发表在SIGIR的一篇论文,论文的核心问题是网约车发展至今,提供的服务越来越多样化(如专车,快车,豪华车,出租车,代驾,电单车等),如何为不同需求的用户推荐适合的服务。主要从时间,空间以及用户的行为特征三个维度进行考虑,构造出这三个模型,实现模型的ensemble,最后评估模型效果。1.问题明确文章主要解决的问题是针对不同需求的用户,APP智能的在首屏展现其所需服务,...

2018-10-12 14:49:25 903

原创 一起来刷LeetCode

在正式刷leetcode之前,我们首先明确几个概念:1.前置回顾:a. 算法复杂度  2.问题类型  a.动态规划思路:单纯从问题来看,这是一个非常复杂的问题,需要大量的遍历操作。分析得知:每一个位置map[i][j]只可能来自map[i][j-1]向右走一个结点或者map[i-1][j]向下走一个结点,因此只需要比较到达map[i][j-1]和到达map[i-...

2018-10-11 20:37:10 126

原创 Linux常用命令

ps -u 查看当前进程

2018-10-11 10:42:07 127

原创 论文阅读: Wide & Deep Learning for Recommender Systems

占坑

2018-10-11 10:15:40 118

原创 Hive入门及常用指令

Hive是基于Hadoop的数据仓库解决方案,简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特...

2018-10-10 20:06:37 580

原创 hadoop中的常用命令

1.查看hive表在hdfs上的存储位置hive> show create table dj_test.hxy_coma_arrived_dri_often_stay;LOCATION  'hdfs://DClusterNmg4/user/dj_bi/warehouse/dj_test.db/hxy_coma_arrived_dri_often_stay'hdfs dfs -d...

2018-10-10 15:35:03 178

原创 异常检测(Anomaly Detection)导论

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键 !这里写图片描述快捷键加粗 Ctrl + B 斜体 ...

2018-09-14 07:26:15 464

原创 传统算法: 匈牙利算法&KM算法

做为一个算法工程师,除了了解各种NN网络结构,调的一手好参数,传统算法这一部分也不能拉下。因此着手写这个系列,一方面加深自己对算法的理解,另一方面探讨在实际业务中的应用,毕竟AC不是目的,融汇贯通的应用才是真目标。问题:刚入职某网约车平台的L同学被安排了个任务,如下图所示,在一块区域有m个司机和n个乘客,考虑司机的接驾成本,司机只接距离三公里以内的乘客,以及一个司机只能接一个乘客,该如...

2018-09-13 16:34:38 821

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除