自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Dby_freedom的博客

一个关于 Recommendation System & Machine Learning 的技术分享博客

  • 博客(295)
  • 论坛 (6)
  • 收藏
  • 关注

原创 CTR预估 论文精读(十三)--Behavior Sequence Transformer for E-commerce Recommendation in Alibaba(BST)

Behavior Sequence Transformer for E-commerce Recommendation in Alibaba 论文解读0. 摘要In this paper, we propose to use the powerful Transformer model to capture the sequential signals underlying users’ behavior sequences for recommendation in Alibaba.1. 创新点其

2020-11-07 17:58:52 127 1

原创 CTR预估 论文精读(十二)--Deep Session Interest Network(DSIN)

We observe that user behaviors are highly homogeneous in each session, and heterogeneous cross sessions. Based on this observation, we propose a novel CTR model named Deep Session Interest Network (DSIN) that leverages users’ multiple historical sessions i

2020-11-06 19:16:02 60

原创 CTR预估 论文精读(十一)--Deep Interest Evolution Network(DIEN)

Deep Interest Evolution Network(DIEN) 论文解读0. 摘要Deep Interest Evolution Network (DIEN) uses interest extractor layer to capture temporal interests from history behavior sequence. At this layer, an auxiliary loss is proposed to supervise interest extracti

2020-11-03 20:30:06 70

原创 CTR 预测理论(二十五):矩阵和向量乘法总结

推荐系统中常涉及矩阵、向量乘法,此处结合现有文献做一个小结,仅用于学习交流使用。

2020-03-16 15:11:25 304

原创 CTR 预测理论(二十四):推荐系统中序列(Sequence)与会话(Session)区别

本博文旨在对序列建模中遇到的 Sequence 和 Session 做分析介绍。

2020-02-20 15:20:26 783 4

原创 CTR 预测理论(二十三):推荐系统用户兴趣特征表征方式

在推荐系统场景中,关于用户兴趣特征的表征对于提升最终模型点击率预估具有重要意义,结合已有资料,于此文对目前主流用户特征表征方式进行一次梳理。

2020-01-10 19:50:34 902 1

原创 CTR 预测理论(二十二):推荐系统如何做 User Embedding

如何对推荐系统场景下的user做embedding以尽量保留用户更多行为偏好信息一致是业界重点探索方向,此处做一个现有方法汇总。

2019-12-16 19:51:40 1220

原创 CTR预估 论文精读(十)--xDeepFM: Combining Explicit and Implicit Feature Interactions for Recommender Systems

以xDeepFM为引,整理一下CTR深度学习模型的发展脉络,并对xDeepFM做具体解读。

2019-12-05 10:04:26 628 5

原创 算法与数据结构(一):滑动窗口法总结

滑窗法在算法题中大量应用,其思想简洁强大,但是往往在维护左右指针时候容易出错,现总结整理如下:

2019-10-16 23:32:28 6936 5

原创 算法与数据结构(十八):硬币找零问题总结

一、 01硬币找零问题(01背包)给定不同面额的硬币 coins 和总金额 m。每个硬币最多选择一次。计算可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额,返回 -1。状态表示f[i][j] 表示只看前 i 个物品,总价值是 j 的情况下的最小硬币数目。状态转移f[i, j] = min(f[i-1, j], f[i-1, j-ci] + 1) 分别对应了...

2019-10-05 13:33:28 190

原创 算法与数据结构(十七):BFS, DFS 算法总结

BFS, DFS 算法总结BFS, DFS 作为算法题中一种常见题型,其解题方式相对固定,但其运算思想很巧妙,先总结与此。LeetCode 207. Course ScheduleThere are a total of n courses you have to take, labeled from 0 to n-1.Some courses may have prerequisites...

2019-10-04 20:49:10 262 2

原创 算法与数据结构(十六):Python 内建排序方法总结

Python 内建排序机制很强大,此处对其进行一个较为系统的使用总结。

2019-09-15 11:18:55 133

原创 CTR 预测理论(二十一):数据预处理总结

数据预处理作为算法工程师的基本功,其预处理往往需要结合数据、模型、训练目标等多方面要求,现整合目前现有资料,做一个总结,后续再陆续添加。

2019-08-22 10:04:07 1298

原创 CTR 预测理论(二十):特征选择总结

特征筛选作为一个老生常谈的问题,但自身一直缺乏一个较为完整的梳理,现结合现有资料,总结于此。

2019-08-21 23:24:52 1668

原创 算法与数据结构(十五):最大子序和算法总结

最大子序和算法经常遇到,虽然也能写出,但往往不能直接想到最优雅的写法,现总结与此,仅供学习交流使用。

2019-08-13 23:50:04 145

原创 CTR 预测理论(十九):高维稀疏特征场景中 LR 比 GBDT 效果好的原因

个人曾经也很多次思考过:高维稀疏特征的时候,LR 的效果会比 GBDT 好的原因,现查阅资料总结与此。

2019-08-06 21:00:50 1439

原创 算法与数据结构(十四):IO 模板总结(C++ & Python)

不少网络笔试不像 LeetCode 帮你完成 I/O,需要手动完成;个人深受其痛,现将常用的 IO 模板总结与此,分别总结了 C/C++ 和 Python 代码。

2019-08-02 20:57:12 473

原创 算法与数据结构(十三):字符串反转题型总结

字符串反转总结字符串反转(如 “hello world” 转变为 “world hello”)作为一种常见题型,如果利用 python 作很简单,但是用 C++ 做往往需要考虑旋转、平移等策略,比较麻烦,这里对此类题型做一个小结。

2019-07-31 14:35:55 200

原创 排序算法总结(Python版)

经典排序算法总结与实现经典排序算法在面试中占有很大的比重,也是基础,为了未雨绸缪,在寒假里整理并用Python实现了七大经典排序算法,包括冒泡排序,插入排序,选择排序,希尔排序,归并排序,快速排序,堆排序。希望能帮助到有需要的同学。

2019-07-24 23:47:43 9746 5

原创 CTR 预测理论(十八):机器学习数据分析建模完整流程

结合个人学习及网上参考资料,先将从数据集加载、预处理、建模流程总结如下,文中参考了很多现有资料,该文仅供自身学习与学术交流。

2019-07-24 23:05:54 729

原创 算法与数据结构(十二):Jump Game 题型总结

Jump Game 总结Jump Game 作为一个系列题,对理解贪婪算法、DFS 都有较好的体现,现总结与此。

2019-07-18 14:45:51 134

原创 算法与数据结构(七):二分查找法总结

二分查找法作为一种常见的查找方法,将原本是线性时间提升到了对数时间范围,大大缩短了搜索时间,具有很大的应用场景,而在LeetCode中,要运用二分搜索法来解的题目也有很多,但是实际上二分查找法的查找目标有很多种,而且在细节写法也有一些变化。

2019-07-14 23:55:20 282

原创 算法与数据结构(十一):Intervals 题型总结

Intervals 作为一种在面试中被问过两次的面试题型,现总结于此,该博文仅用于学习交流;

2019-07-05 21:20:19 329

原创 CTR 预测理论(十七):回归和分类损失函数总结

损失函数作为建模的一个重要环节,一个针对模型、数据集都合适的损失函数对于建模的好坏至关重要,现查询相关资料,将常见的分类、回归损失函数及常用的 Tensorflow 代码总结于此,仅用于学习交流。

2019-07-05 20:35:31 2091

原创 算法与数据结构(十):排列与条件组合算法总结

排列、条件组合算法总结排列、组合问题作为一种经常出现在各类算法考核中的编程题,其思路较为固定,但是变形比较多,结合一些自身学习、思考,现总结如下。

2019-07-02 16:13:12 577

原创 算法与数据结构(九):最佳买卖股票总结

最佳买卖股票总结买卖股票问题作为 LeetCode 中一类题,其思想很有指导意义,现总结如下;

2019-07-01 14:59:42 324

原创 算法与数据结构(八):构建二叉树总结

利用前序、中序(后序)构建二叉树想起最近做到的两道利用前序、中序以及利用中序、后序构建二叉树的题,其也广泛出现在面试题中的选择题中,现整理总结如下。

2019-07-01 10:23:05 121

原创 算法与数据结构(六):旋转有序数组搜索总结

旋转有序数组搜索总结LeetCode 上两道很经典的旋转数组二分查找,对于理解二分查找以及旋转数组查找指定元素都是极其有意义的,现总结于此,仅供自身复习及交流分享。

2019-06-30 16:15:11 211

原创 CTR 预测理论(十六):协同过滤算法(UserCF, ItemCF)总结

一、协同过滤核心思想​ 要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做?大部分的人会问问周围的朋友,看看最近有什么好看的电影推荐,而我们一般更倾向于从口味比较类似的朋友那里得到推荐。这就是协同过滤的核心思想。协同过滤一般是在海量的用户中发掘出一小部分和你品位比较类...

2019-06-26 20:10:18 1059

原创 算法与数据结构(五):Manacher's Algorithm 马拉车算法总结

继 KMP 算法之后顺便总结一下马拉车算法,总结与此,仅供自身复习与知识分享所用。这个马拉车算法Manacher‘s Algorithm是用来查找一个字符串的最长回文子串的线性方法,由一个叫Manacher的人在1975年发明的,这个方法的最大贡献是在于将时间复杂度提升到了线性,这是非常了不起的。对于回文串想必大家都不陌生,就是正读反读都一...

2019-06-21 14:24:43 166

原创 算法与数据结构(四):KMP 算法总结

看了很多遍 KMP 算法,总是似是而非,顾记录博客,总结与此,仅供自身复习与知识分享所用。

2019-06-20 22:13:59 154

原创 CTR 预测理论(十五):分类评价指标 AUC 总结(优缺点、计算公式推导)

个人复习总结分类评价指标 ROC,AUC 时候,私以为 AUC 作为 CTR 预估常用离线评估指标,有着丰富的含义和特性,现对其含义、优缺点、用途、计算公式推导等做一个盘点。

2019-05-04 16:13:27 6276 2

原创 CTR 预测理论(十四):逻辑回归算法总结

逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面个人总结梳理下面试知识点。

2019-04-27 14:11:15 1375 4

原创 算法与数据结构(二):动态规划(DP)总结

1. 最长公共子序列题目描述对于两个字符串,请设计一个高效算法,求他们的最长公共子序列的长度,这里的最长公共子序列定义为有两个序列U1,U2,U3…Un和V1,V2,V3…Vn,其中Ui&ltUi+1,Vi&ltVi+1。且A[Ui] == B[Vi]。给定两个字符串A和B,同时给定两个串的长度n和m,请返回最长公共子序列的长度。保证两串长度均小于等于300。测试样例:...

2019-04-21 22:44:50 466

原创 CTR 预测理论(十三):树模型特征重要性原理总结

最近在复习特征重要性时候,考虑到我们在使用GBDT、RF、Xgboost等树类模型建模时,往往可以通过 feature_importance 来返回特征重要性,下面收集整理了一下各模型输出特征重要性的原理与方法;

2019-04-05 10:34:37 924

原创 CTR 预测理论(十二):L1 正则相比于 L2 更容易获得稀疏解原因总结

最近复习正则约束,考虑到从未本质上考虑过 L1 正则稀疏性问题,现查阅相关资料,总结整理如下:

2019-04-04 13:00:04 343

原创 CTR 预测理论(十一):神经网络激活函数优缺点总结

1. 激活函数的定义与作用在人工神经网络中,神经元节点的激活函数定义了对神经元输出的映射,简单来说,神经元的输出(例如,全连接网络中就是输入向量与权重向量的内积再加上偏置项)经过激活函数处理后再作为输出。加拿大蒙特利尔大学的Bengio教授在 ICML 2016 的文章[1]中给出了激活函数的定义:激活函数是映射 h:R→R,且几乎处处可导。神经网络中激活函数的主要作用是提供网络的非线性建模能...

2019-04-01 13:32:20 807

原创 CTR预估 论文实践(二)--LightGBM 调参指南

Step1. 学习率和估计器及其数目不管怎么样,我们先把学习率先定一个较高的值,这里取 learning_rate = 0.1,其次确定估计器boosting/boost/boosting_type的类型,不过默认都会选gbdt。为了确定估计器的数目,也就是boosting迭代的次数,也可以说是残差树的数目,参数名为n_estimators/num_iterations/num_round/n...

2019-03-31 12:50:57 581

原创 CTR预估 论文实践(一)--XGoost 调参指南

1. 载入数据from sklearn.model_selection import train_test_splitfrom sklearn import metricsfrom sklearn.datasets import make_hastie_10_2from sklearn.ensemble import GradientBoostingClassifierfro...

2019-03-31 12:48:55 619

原创 CTR 预测理论(十):GBDT 与 Logistic Regression 区别总结

最近面试被问到这个问题,之前总是总是零星记得几条,现总结梳理如下。1. 从机器学习三要素的角度:1.1 模型本质上来说,他们都是监督学习,判别模型,直接对数据的分布建模,不尝试挖据隐含变量,这些方面是大体相同的。但是又因为一个是线性模型,一个是非线性模型,因此其具体模型的结构导致了VC维的不同:其中,Logistic Regression作为线性分类器,它的VC维是d+1,而 GBDT 作...

2019-03-31 12:24:39 708

空空如也

CSDN markdown 编辑形式如何支持公式左对齐

发表于 2019-02-23 最后回复 2020-04-28

专栏、分类、分类专栏都找不到

发表于 2019-08-26 最后回复 2020-03-24

博文被提醒“包含广告”不能审核通过

发表于 2019-08-17 最后回复 2019-08-17

申请移除专栏

发表于 2019-07-18 最后回复 2019-07-18

博客网页粉丝数量一直没有更新

发表于 2019-04-03 最后回复 2019-04-23

申请修改的专栏长久没有回复

发表于 2018-11-26 最后回复 2018-11-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除