蓁蓁尔-CSDN博客

原创传统推荐算法分类总结--简单梳理

传统的推荐算法分为三大类：1、基于内容的推荐（Content Based，CB），基于用户特征属性和item的特征之间的匹配程度来做推荐，推荐效果强依赖于特征工程的好坏。好处是用户独立性，不需要协同考虑其他用户特征，这也意味着一个缺点就是可供我们分析的内容有限。再一个好处是没与用户互动（评分、购买、加购物车等）过的新的item也可以被推荐。最大的缺点是过度特化，推荐的items没有创新性和惊喜

2017-08-22 21:41:54 8526

一、基本概念1、GBDT(Gradient Boosting Decision Tree)又叫MART(Multiple Additive Regression Tree)，GBRT(Gradient Boost Regression Tree)，Tree Net等，是一种迭代的决策树算法，与Adboost相比，GBDT也是用了前向分步算法，但是其规定了弱学习器只能是回归树，每棵树拟合的是之前所有树

2017-08-14 20:29:19 1280

原创《这就是搜索引擎-核心技术详解》简单梳理+一些知识图谱的知识

《这就是搜索引擎-核心技术详解》，我挺喜欢这本书的，深入浅出让读者明白一个搜索引擎的大体架构和各个部分的经典技术手段。一、相关概念（1）搜索引擎的3个核心问题：理解用户真正的需求（主要第九章用户查询意图分析，再一个是情景搜索，即此时此地此人，获取用户发生查询的时间、地点、周围环境等+之前的用户模型，根本目的还是要理解当前用户当前情境下的需求）判断相关性，目前主要是基于关键词的匹配，VSM+TF*

2017-08-07 17:05:02 8681

原创深度学习+推荐--近期论文总结

一。推荐任务分三类：评分预测类任务（近几年热度：2），排序预测类任务（top N 推荐，近几年热度：3）分类任务（热度：1）。推荐系统算法方面分三类：协同过滤（CF）, 基于内容的推荐（CB）混合推荐。二。目前的推荐算法中用到的8类深度学习模型：MLP（理论上可以拟合各种函数，可以非常容易的model用户和项目间的非线性关系），AE及其变体（非监督，超强的特征学习能力），

2017-08-01 21:22:14 2791

原创网络表示学习（DeepWalk，LINE，node2vec，SDNE）

1.传统：基于图的表示（又称为基于符号的表示）如左图G =（V，E），用不同的符号命名不同的节点，用二维数组（邻接矩阵）的存储结构表示两节点间是否存在连边，存在为1，否则为0。缺点：长尾分布下大部分节点间没有关系，所以邻接矩阵非常稀疏，不利于存储计算。2. 网络表示学习（Network Representation Learning，NRL），也称

2017-07-24 12:49:01 54873 1

原创网络表示学习相关资料

收藏夹有一点爆炸，所以在这边开一个帖子直接扔这吧，下面的资料常看，温故知新。网络表示学习（network representation learning，NRL）,也被称为图嵌入方法（graph embedding method，GEM）是这两年兴起的工作，目前很热，许多直接研究网络表示学习的工作和同时优化网络表示+下游任务的工作正在进行中。1.清华大学计算机系

2017-07-08 22:59:33 3845

原创 word2vec

没太有什么公式，从实践角度来看的，主要是skip gram 模型。一。 1. 首先搞明白为什么要用低维实值向量表示word，而不使用one-hot来表示。 “one-hot”：将 word 转化为含有一个1，其他都是0的稀疏向量，向量的维度等于词表大小，只有对应位置上的数字为1，其他都为0。（1）one-hot太稀疏，维度太高之后不易处理；（2）最主要的是 one-hot 捕捉不到任

2017-07-02 16:37:19 5932 2

原创异构信息网络+推荐===总结

关于异构信息网络的基本概念，可以先看看：异构信息网络–基本概念和定义学习笔记**一、元路径（Meta Path）** - 因为异构信息网络（以后简称为HIN）中包含着更多的节点类型和边的类型，相对于同构网络来说比较复杂，所以Yizhou Sun【1】第一次提出了元路径（meta path）的概念，基于元路径来分析HIN，简单来说元路径就是连接两个节点之间的边类型和节点类型...

2017-06-22 18:52:28 15350 4

原创推荐系统的近期综述+经典论文及其实现

Recommender systems survey 2013 偏原理Recommender system application developments: A survey 2015 偏应用推荐 TU Delft 石玥(现在雅虎)14年发在CSUR的一篇综述[Shi et al., 2014] Yue Shi, Martha Larson, and Alan Hanjalic. Coll

2017-04-27 08:59:16 2351

原创《统计学习方法》学习笔记（6）-- 决策树-附代码（sklearn）

决策树，特征选择的三个准则：信息增益（ID3），信息增益比（C4.5），基尼系数（CART）。决策树的生成，决策树的剪枝。

2017-04-25 17:09:38 1002

原创《统计学习方法》学习笔记（5）-- 朴素贝叶斯法

贝叶斯法分类

2017-04-25 11:27:08 410

原创《统计学习方法》学习笔记（3）--感知机

补点小常识：1958年，（李航老师《统计学习方法中》说到的是1957年）计算科学家Rosenblatt提出了由两层神经元组成的神经网络–“感知器”（Perceptron）–单层神经网络。感知器是当时首个可以学习的ANN。Rosenblatt现场演示了其学习识别简单图像的过程，在当时的社会引起了轰动。人们认为已经发现了智能的奥秘，许多学者和科研机构纷纷投入到神经网络的研究中。美国军方大力资助并认为神经

2017-04-24 10:49:52 739

原创《统计学习方法》学习笔记（2）--模型选择、泛化能力

1.泛化能力用来表征学习模型对于未知数据的预测能力。为了避免过拟合，且使误差最小，模型选择的常用方法有：正则化和交叉验证。正则化是结构风险最小化策略的实现=经验风险最小化+正则化项/罚项交叉验证简单交叉验证，将数据70%作为训练集，30%作为测试集，然后选出测试误差最小的模型S-fold交叉验证，将数据随机分成S份，将S-1份作为训练集，剩下的作为测试集，对于训练集和测试集有S种选择，

2017-04-24 10:36:55 1643

转载隐马尔科夫模型的应用实例：中文分词

什么问题用HMM解决现实生活中有这样一类随机现象，在已知现在情况的条件下，未来时刻的情况只与现在有关，而与遥远的过去并无直接关系。比如天气预测，如果我们知道“晴天，多云，雨天”之间的转换概率，那么如果今天是晴天，我们就可以推断出明天是各种天气的概率，接着后天的天气可以由明天的进行计算。这类问题可以用 Markov 模型来描述。进一步，如果我们并不知道今天的天气属于什么状况，我们只知道今明后三天的水藻

2017-04-22 21:52:01 3594 1

原创用户画像杂谈

用户画像是针对产品/服务目标群体真实特征的勾勒，是真实用户的综合原型。昨晚上看了两篇关于用户画像的文章，做总结如下 1. 如何避免形式主义的用户画像这篇文章主要围绕着如何设计用户标签体系展开。开篇先讲解了“用户画像”和其另一个名字“受众定向”，作者认为我们平时说的“用户画像”听起来更加关注人口属性、生活状态等静态信息，这并没有表达出我们的重点关注点（例如：某用户“最近要不要旅游”、“准备买多少

2017-04-18 09:23:13 1450

原创 [入门笔记]神经网络浅讲：从神经元到深度学习

原文：神经网络浅讲：从神经元到深度学习这篇文章介绍很好，深入浅出、很容易懂但是该有的东西都讲到了，一口气看下来会觉得很爽。因为文章很长所以下面主要是上文中的一些摘抄。1.神经网络的“三起三落” 1943年，心理学家McCulloch和数学家Pitts参考了生物神经元的结构，发表了抽象的神经元模型MP。神经元：影响： 1943年发布的MP模型，简单却建立了神经网络大厦的地基

2017-04-16 21:45:35 3334

原创计算图（computational graph）角度看BP（back propagation）算法

从计算图（computational graph）角度看BP（back propagation）算法，这也是目前各大深度学习框架中用到的，Tensorflow, Theano, CNTK等。参考【1】一、通用形式1. 什么是计算图结构从下图中我们可以清楚地看到（1）可以将计算图看作是一种用来描述function的语言，图中的节点node代表function的输入（可以是常数、向量、张量等），

2017-04-15 15:18:02 14446 3

原创 windows下安装双版本anaconda，以及配置jupyter notebook的kernel

见：http://blog.csdn.net/qq_22073849/article/details/61927062activate py3

2017-04-13 08:42:51 995

转载 Netflix推荐系统的最新解读：算法、商业价值与创新

2009年由Netflix发起的Netflix Prize百万美金竞赛，绝对是推荐系统领域最标致性的事件，这次比赛不但吸引了众多专业人士开始投身于推荐系统领域的研究工作，也让这项技术从学术圈真正地进入到了商业界，引发了热烈的讨论并逐渐深入到了商业的核心腹地，功德无量。当然，最受益的肯定还是Netflix公司自己，不仅大有取代Amazon成为新一代推荐引擎之王的架势，而且从商业回报本身上看也无疑取得了

2017-04-09 19:52:46 10405 1

原创协同过滤杂谈

两种memory-based CF对比： ItemCF：更常用一些，一个是因为其稳定性好，两个商品相似就是相似，但是两个用户之间的相似度要考虑时间因素；再一个是商品库里的商品就那么多，计算量级比较固定；还有一个是它发掘长尾商品的能力相对来说更强。 CF优缺点：优点：（1）与基于内容的推荐多用于推荐文本类的item相比，CF不需要知道用户和items的属性，只基于用户和items间的交

2017-04-09 19:36:43 369

原创用数据可视化直观理解数据--iris数据集为例

原文：https://www.kaggle.com/benhamner/d/uciml/iris/python-data-visualizations See Kaggle Datasets for other datasets to try visualizing. The World Food Facts data is an especially rich one for visualiza

2017-04-07 15:43:57 10876 1

原创 numpy_sheet

结合着： numpy常用矩阵计算函数总结>>>import numpy as np# 创建数组# np.array([(中填入想要创建的数组，若多维则将每一维用括号括起来，括号之间用，相隔])>>>np.array([(1.0,2,3),(3,4,5)])[out]array([[ 1., 2., 3.], [ 3., 4., 5.]])>>>np.arange(1,20

2017-04-03 11:51:35 472

转载推荐系统经典论文文献及业界应用

推荐系统经典论文文献及业界应用列了一些之前设计开发百度关键词搜索推荐引擎时，参考过的论文，书籍，以及调研过的推荐系统相关的工具；同时给出参加过及未参加过的业界推荐引擎应用交流资料（有我网盘的链接），材料组织方式参考了厂里部分同学的整理。因为推荐引擎不能算是一个独立学科，它与机器学习，数据挖掘有天然不可分的关系，所以同时列了一些这方面有用的工具及书籍，希望能对大家有所帮助。Survey方面的文

2017-03-31 11:22:00 2850

原创 Amazon的推荐系统到底行不行？

原文： https://mp.weixin.qq.com/s?__biz=MzA4OTk5OTQzMg==&mid=2449231246&idx=1&sn=16fbcb9418dbe4f6fac8e6dd5aaa4e69大体意思：亚马逊在业内有「推荐系统之王」之称，亚马逊有35%的销售额是与推荐系统相关的。但是，微软的研究员Amit Sharma发表了一篇paper《Estimating the

2017-03-29 20:13:37 1371

原创推荐系统相关论文、工具、资料等资源整理

用深度学习做推荐的论文和报告列表1： http://shuaizhang.tech/2017/03/13/Papers-Deep-Learning-for-Recommender-System/用深度学习做推荐的论文和报告列表2： https://amundtveit.com/2016/11/20/recommender-systems-with-deep-learning/推荐系统常用的数

2017-03-27 16:29:35 1765

原创从工业角度谈推荐系统的过去、现在和未来（三）

四. 经验教训1. Implicit vs explicit 一般都认为隐性信息更有用，真的更有用吗？如果是，为什么呢？（1）隐性信息一般具有以下特点：。。1.更稠密dense，并且所有用户的都能得到。诚然，评分数据总体来说是很稀疏的，之前netflix的百万美元挑战赛给出的数据稀疏度大概是1.2%，毕竟评分数据是要消耗更多注意力的数据。。。2. 能更好的表示

2017-03-26 11:19:58 1004

原创从工业角度谈推荐系统的过去、现在和未来（二）

一、推荐问题的理解1.传统定义：基于用户过去的行为习惯、用户间的关系、 item间的相似度、上下文等信息来估计一个可以自动预测user对item的喜欢程度的效用函数（utility function）。也就是说：推荐就是根据用户的历史行为习惯、社交关系、兴趣偏好（长期偏好、短期兴趣）和用户当前所处的上下文环境等去判断用户的当前需求/感兴趣的的item。 2. 推荐引擎的核心部分可以看作

2017-03-24 15:54:10 2318

原创从工业角度谈推荐系统的过去、现在和未来（一）

主要综合下面三篇文章整理而成，信息量太大，所以在对应的地方也列出了一些可参考帮助理解的文章，有些地方还没看明白，会一直修改的应该。1.原文：《 Past, Present and Future of Recommender Systems: an Industry Perspective》 by Amatriain (Quora), Justin Basilico (Netflix) https:

2017-03-24 15:24:33 868

原创 Stanford UFLDL教程（一）--神经网络、BP算法、BP初始值设置和梯度检验

在看斯坦福大学的UFLDL（非监督特征学习和深度学习）教程时，发现了一个博客，在看教程的过程中不懂得问题，大部分在博客中得到了解答。转到自己帖子中方便以后重新查看。01.神经网络 UFLDL：http://deeplearning.stanford.edu/wiki/index.php/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C 博客：http://blog.csd

2017-03-08 15:20:30 1009

转载机器学习数据挖掘知识点总结大纲

**Basis(基础)：**SSE(Sum of Squared Error, 平方误差和)SAE(Sum of Absolute Error, 绝对误差和)SRE(Sum of Relative Error, 相对误差和)MSE(Mean Squared Error, 均方误差)RMSE(Root Mean Squared Error, 均方根误差)RRSE(Root Relative

2017-03-06 16:09:40 2198

原创交叉熵代价函数+方向导数+梯度（详细作用及公式推导）

交叉熵代价函数（作用及公式推导） http://blog.csdn.net/u014313009/article/details/51043064交叉熵代价函数 http://blog.csdn.net/u012162613/article/details/44239919两篇结合着看。

2017-03-04 10:42:12 4746

原创隐马尔可夫模型与词性标注（下）

1.词性标注（Part Of Speech tagging，POS tagging）任务：给定词序列：W=w1,w2,.....,wn, 寻找词性标注序列T=t1,t2,.....,tn, 使得P（t1,t2,.....,tn|w1,w2,.....,wn）最大。

2017-03-01 19:56:14 1257

原创隐马尔可夫模型与词性标注（上）

1. 隐马尔科夫模型（Hidden Markov Models，HMM）关于隐马尔科夫模型，在我爱自然语言处理上有一个很生动形象的解释：http://www.52nlp.cn/hmm-learn-best-practices-two-generating-patterns我们至少要知道：（1）HMM是一个数学模型，包括隐藏状态集合、观察状态集合、观察状态的初始概率向量π, 隐藏状态间的

2017-03-01 19:36:45 3424

原创概率语言模型的分词方法（下）

评价语言模型的好坏–困惑度（perplexity）

2017-02-28 20:06:30 501

原创概率语言模型的分词方法（上）

概率语言模型分词

2017-02-28 19:55:05 810

原创 tensorflow

已看完： TensorFlow极速入门 http://weibo.com/ttarticle/p/show?id=2309351000224074036907921465 机器学习的敲门砖：手把手教你TensorFlow初级入门 https://yq.aliyun.com/articles/64410 『深度长文』Tensorflow代码解析（一） https://mp.weixin.qq

2017-02-27 19:34:35 627

原创中文语料库and分词

北京大学计算语言学研究所：《人民日报》切分/标注语料库中文对白语料：可用作聊天机器人训练语料THUOCL：清华大学开放中文词库（1） http://thuocl.thunlp.org/ （2）一篇微信文章THULAC：一个高效的中文词法分析工具包专栏 | 中文分词工具测评 http://chuansong.me/n/1205988942333

2017-02-25 16:45:25 6594

原创聊天机器人相关中文资料

聊天机器人三代：第一代可以理解为：大量的if then else then，典型的特征工程。第二代可以理解为：对话检索，给定一个问题或者聊天，检索库中已有的答案与之最匹配。比如：小黄鸡。第三代可以理解为：生成对话，流行的做法是seq2seq+attention，是一种神经网络模型。经过大量数据的训练，根据输入生成输出。比如：google的这篇paper A Neural Convers

2017-02-20 11:22:06 867

原创 theano tutorial -- 用theano实现逻辑回归LR（三）theano实现LR算法

>>> import numpy>>> import theano>>> import theano.tensor as T>>> rng = numpy.random>>> N = 400 # 训练数据的数量 400个样本>>> feats = 784 # 特征数

2017-01-07 13:46:07 421

原创 theano tutorial -- 用theano实现逻辑回归LR（二）计算图结构

见：http://deeplearning.net/software/theano/extending/graphstructures.html中文版：http://geek.csdn.net/news/detail/131362（1）图的结构Theano用图来表示符号数学运算。这些图的点包括：Apply、变量、operation和有向边。Apply代表了op对某些变量的计算【op类比成函数的定义，

2017-01-07 12:49:01 456

hetesim简单实现

用数据可视化直观理解数据--iris数据集为例

PathSim代码实现

java2 应用编程150例 【源码全】

空空如也

java2 应用编程150例【源码全】