关闭

(论文阅读笔记1)Collaborative Metric Learning(二)(WWW2017)

三、协同度量学习    这一部分,我们讨论CML作为一种更自然的方法获得关联关系。CML的思路是这样的:我们在已知正例关系的user-item集合S\mathcal{S}上建立一个隐性反馈模型,并且学习user-item的距离作为他们的关系。学习到的距离使得S\mathcal{S}中的对更加紧密,而S\mathcal{S}之外的user-item对相对的远离。这个处理过程,源于三角不等性。也可以聚类...
阅读(150) 评论(0)

(论文阅读笔记1)Collaborative Metric Learning(一)(WWW2017)

一、摘要    度量学习算法产生的距离度量捕获数据之间的重要关系。这里,我们将度量学习和协同过滤联系起来,提出了协同度量学习(CML),它可以学习出一个共同的度量空间来编码用户偏好和user-user 和 item-item的相似度。二、背景2.1 Metric Learning     令χ={x1,x2,…,xn}\chi = \{x_1, x_2,\dots, x_n\}是空间Rm\mathb...
阅读(217) 评论(0)

深入理解simhash原理

一、LSH 介绍    LSH(Locality sensitive hashing)是局部敏感性hashing,它与传统的hash是不同的。传统hash的目的是希望得到O(1)的查找性能,将原始数据映射到相应的桶内。     LSH的基本思想是将空间中原始数据相邻的2个数据点通过映射或者投影变换后,这两个数据点在新的空间中的相邻概率很大,不相邻的点映射到同一个桶的概率小。我们可以看到将一个在超大...
阅读(189) 评论(0)

实时重复文章识别——SimHash

一、背景介绍    在前边的文章中,我们采用的是用google的Doc2Vec模型来识别重复文章的,从线上运行的效果来看,它的准确率是比较高的。当然,这是建立在把所有的文章都当做训练数据来训练Doc2Vec模型的基础上的,它推断出一篇文章的向量之后再去做相似计算的效果是不太好的。况且,训练模型的耗时是比较长的,因此,这种模型的适用性只适合于离线计算文章之间的相似,并不适合实时识别重复文章,由于我们现...
阅读(303) 评论(0)

Doc2Vec训练相似文章识别模型

一、需求描述     由于在平台上发布的文章是来源于不同渠道和作者的,发布的文章也存在一定程度上的抄袭或者太相似。为了避免对用户体验造成影响,避免不必要的文章费用支出,需要识别出哪些文章是相似的。数据源是若干文章(中文),初步选择方法为利用doc2vec模型,它类似于word2vec,下面就让我们看看是怎么达到我们的目的。二、数据预处理 从mysql源表导入到hive 由于某些文章的内容是图片,这种...
阅读(779) 评论(0)

最优化学习笔记(二十)——全局搜索算法

一、引言    前边的博文我们讨论过一些迭代算法,包括梯度方法、牛顿法、共轭梯度法和拟牛顿法,能够从初始点出发,产生一个迭代序列,但是往往这些迭代序列只能收敛到局部极小点,而且这些迭代方法需要计算目标函数的一阶导数(牛顿法还需计算二阶导数)。从本节开始,讨论一些全局搜索算法,这些方法只需要计算目标函数值,而不需要对目标函数求导。二、Nelder-Mead 单纯形法(一)    Nelder-Mea...
阅读(590) 评论(0)

Spark下的word2vec模型训练

一、引言    前边一节介绍了Word2Vec模型训练同义词,那么在大数据量的情况下,我们自然想到了用spark来进行训练。下面就介绍我们是如何实现spark上的模型训练。二、分词    模型训练的输入是分好词的语料,那么就得实现spark上的分词。def split(jieba_list, iterator): sentences = [] for i in iterator:...
阅读(1394) 评论(0)

Word2Vec训练同义词模型

一、需求描述     业务需求的目标是识别出目标词汇的同义词和相关词汇,如下为部分目标词汇(主要用于医疗问诊): 尿 痘痘 发冷 呼吸困难 恶心 数据源是若干im数据,那么这里我们选择google 的word2vec模型来训练同义词和相关词。二、数据处理    数据处理考虑以下几个方面: 1. 从hive中导出不同数据量的数据 2. 过滤无用的训练样本(例如字数少于...
阅读(1985) 评论(3)

Java陷阱(一)——ArrayList.asList

一、问题代码    话不多说,直接上问题代码:package com.pajk.recsys.dk.test;import java.util.ArrayList; import java.util.Arrays; import java.util.List;import com.pajk.recsys.utils.CommonUtils;public class CommonTest {...
阅读(253) 评论(0)

最优化学习笔记(十九)——拟牛顿法(5)BFGS算法

一、BFGS算法的更新公式    为了推导BFGS算法,需要用到对偶或者互补的概念,前边已经讨论过hessian矩阵逆矩阵的近似矩阵需要满足以下条件: Hk+1Δg(i)=Δx(i)0≤i≤k \boldsymbol{H}_{k+1} \Delta\boldsymbol{g}^{(i)} = \Delta\boldsymbol{x}^{(i)} \quad 0 \le i\le k 这是根据Δ...
阅读(803) 评论(0)

Optimization inequalities cheatsheet

This article is from http://fa.bianp.net/blog/2017/optimization-inequalities-cheatsheet/, just record it.Most proofs in optimization consist in using inequalities for a particular function class in som...
阅读(179) 评论(0)

最优化学习笔记(十八)——拟牛顿法(4)DFP算法

秩2算法可以保证在任意第kk步迭代下, 只要一维搜索是精确的,近似矩阵Hk\boldsymbol{H}_k就是正定的。DFP算法 令k=0k=0,选择初始点x(0)\boldsymbol{x}^{(0)},任意选择一个堆成正定实矩阵H0\boldsymbol{H}_0。 如果g(k)=0\boldsymbol{g}^{(k)} = \boldsymbol{0}, 停止迭代; 否则,令d(k)=−Hk...
阅读(395) 评论(0)

最优化学习笔记(十七)——拟牛顿法(3)

秩1修正公式    在秩1修正公式中,修正项为αkz(k)z(k)T,αk∈R,z(k)∈Rn\alpha_k\boldsymbol{z}^{(k)}\boldsymbol{z}^{(k)T}, \alpha_k \in \mathbb{R}, \boldsymbol{z}^{(k)} \in \mathbb{R}^n,是一个对称矩阵,近似矩阵的更新方程为: Hk+1=Hk+αkz(k)z(k)T...
阅读(356) 评论(0)

最优化学习笔记(十六)——拟牛顿法(2)

Hessian矩阵逆矩阵的近似一、拟牛顿法的基本思路    令H0,H1,H2,…\boldsymbol{H_0,H_1, H_2}, \dots表示Hessian矩阵逆矩阵F(x(k))−1\boldsymbol{F}(\boldsymbol{x}^{(k)})^{-1}的一系列近似矩阵。我们要讨论的是这些近似矩阵应该满足的条件,这是拟牛顿法的基础。首先,假定目标函数ff的Hessian矩阵F(x...
阅读(285) 评论(0)

最优化学习笔记(十五)——拟牛顿法(1)

拟牛顿法分为五部分来讲,本文这部分作为引言,第二部分讲Hessian矩阵逆矩阵的近似,第三部分秩1修正公式,第四部分为DFP算法,最后BFGS算法。     牛顿法是一种具有较高实用性的优化问题的求解方法。牛顿法如果收敛,收敛阶数至少是2。但是,当目标函数为一般性的非线性函数时,牛顿法就不能保证从任意起始点x(0)\boldsymbol{x}^{(0)}收敛到函数的极小点。也就是说,如果初始点x(...
阅读(489) 评论(0)
61条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:65430次
    • 积分:1235
    • 等级:
    • 排名:千里之外
    • 原创:60篇
    • 转载:1篇
    • 译文:0篇
    • 评论:8条
    文章分类
    最新评论