RecSys 2017 Highlights

In this post I will give my personal thoughts on some articles from 2017 ACM Conference on Recommender Systems, that I chose out of my own interest, ...

2018-05-10 10:36:59

阅读数 406

评论数 0

2015年~2017年SIGIR,SIGKDD,ICML三大会议的Recsys论文

  (转自:https://www.cnblogs.com/shenxiaolin/p/8321722.html)  SIGIR-2015 【Title】WEMAREC: Accurate and Scalable Recommendation through Weighted and En...

2018-05-07 22:02:15

阅读数 1283

评论数 2

适合大数据的聚类算法Mini Batch K-Means

K-Means算法是常用的聚类算法,但其算法本身存在一定的问题,例如在大数据量下的计算时间过长就是一个重要问题。为此,Mini Batch K-Means,这个基于K-Means的变种聚类算法应运而生。 大数据量是什么量级?通过当样本量大于1万做聚类时,就需要考虑选用Mini Batch...

2017-07-24 12:03:45

阅读数 7492

评论数 1

深入FFM原理与实践

FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对F...

2017-02-23 16:33:17

阅读数 227

评论数 0

BPR [Bayesian Personalized Ranking] 算法详解及应用实践

在推荐系统的实现中,几乎总会遇到从较多候选集中为用户选取特定的少数几个物品进行推荐,这本质上是一个Ranking问题。   在推荐场景中用户更缺乏耐性,对推荐结果的消费也十分有限。因此,排序的好坏直接决定了用户对一个准确率为90%的推荐候选集的满意度是否真的有90%。   ...

2017-01-12 19:35:36

阅读数 5885

评论数 2

通过矩阵求两个向量集中元素两两之间的欧氏距离(python实现)

在很多算法中都会涉及到求向量欧式距离,例如机器学习中的KNN算法,就需要对由训练集A和测试集B中的向量组成的所有有序对(Ai,Bi),求出Ai和Bi的欧式距离。这样的话就会带来一个二重的嵌套循环,在向量集很大时效率不高。 这里介绍如何将这一过程用矩阵运算实现。 假设有两个三维向量集,用矩阵表示...

2016-12-06 09:49:21

阅读数 1333

评论数 0

WMD:基于词向量的文档相似度计算

EMD算法简介 该部分引用自[1] Earth Mover’s Distance (EMD),和欧氏距离一样,他们都是一种距离度量的定义,可以用来测量某分布之间的距离。EMD主要应用在图像处理和语音信号处理领域。 EMD问题如下图所示 给定两个签名(或者叫分布、...

2016-11-30 10:45:45

阅读数 15475

评论数 0

文本表示方法

在NLP诸多问题(如:文本分类等)中,文本表示不可或缺。这里博主枚举一些主流的文本表示方法。 这里主要说的是基于文本内容的表示,顺带先扯扯基于行为的表示:不同的业务有不同的表示,基于行为的文本表示如SVD,LFM等,基于用户的行为日志(如新闻点击)学习用户和文本的的特征向量,url2vec利用用户...

2016-11-28 17:55:06

阅读数 6477

评论数 0

蓄水池抽样

问题:在时间复杂度为O(n)下对大批量甚至未知大小的数据(N)等概率随机抽取k个数。 抽样过程:顺序遍历数据N,遍历的前k个数据抽取出放入容量为k的“蓄水池”(称之为K),从第k+i(i>0)数据开始,以k/(k+i)的概率选择该数据并等概率随机替换K中元素。直到遍历结束。 先不多说,撸一串...

2016-11-18 14:49:54

阅读数 227

评论数 0

ubuntu 64位 + tensorflow(cpu)之pip安装

Tensorflow: TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统,主要是深度神经网络模型。 安装配置: 因为不支持Windows系统,只能在Mac或Linux上使用,因此Windows系统可以装个VM虚拟机。 官网是提供了pip, Docker, ...

2016-11-09 15:43:20

阅读数 4772

评论数 0

连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?

连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果? Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里? A: 在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻...

2016-09-26 20:33:29

阅读数 481

评论数 0

特征处理(Feature Processing)

特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Feature Processing),是因为这里面要介绍...

2016-08-30 11:17:58

阅读数 363

评论数 0

特征选择与特征学习

特征选择与特征学习 在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现。  在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用...

2016-08-29 18:33:21

阅读数 7703

评论数 0

Spark开发环境配置(windows/Intellij IDEA 篇)

Intellij IDEA是一个蛮不错的IDE,在java/scala/Groovy领域深得人心。笔者之前使用的是Eclipse那一套开发环境,虽然也不错,但忍不住好奇心的驱使,折腾了一下IDEA,发现写起Spark程序来,“哎呦,不错哟!”,故总结一下在windows系统中的配置过程(在mac下...

2016-08-22 19:02:13

阅读数 1602

评论数 0

转:Adaboost 算法的原理与推导

Adaboost 算法的原理与推导 (原文链接:http://blog.csdn.net/v_july_v/article/details/40718799) 0 引言     一直想写Adaboost来着,但迟迟未能动笔。其算法思想虽然简单:听取多人意见,最后综合决策,但一般书上对其算法...

2016-06-27 13:31:47

阅读数 189

评论数 0

转:利用GBDT模型构造新特征

说明:转载自https://breezedeus.github.io/2014/11/19/breezedeus-feature-mining-gbdt.html 实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏...

2016-06-24 16:10:38

阅读数 1223

评论数 0

让你彻底明白hive数据存储各种模式

问题导读 1.hive数据分为那两种类型? 2.什么表数据? 3.什么是元数据? 4.Hive表里面导入数据的本质什么? 5.表、分区、桶之间之间的关系是什么? 6.外部表和表的区别是什么? Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具...

2016-05-31 12:42:24

阅读数 413

评论数 0

分类中样本数据不平衡问题的解决方法

问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。 (1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低 (2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎...

2016-05-17 13:44:28

阅读数 4733

评论数 0

pycharm中的Django操作数据库

(一)在idle中进行数据操作需要的环境初始化操作 import os; import sys; sys.path.append("E:\\tmp\\mysite");   # 项目位置 os.environ.setdefault("DJANGO_SETTINGS_...

2016-05-04 16:55:10

阅读数 603

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭