Kaggle实战学习 笔记

学习笔记 第一课 数据与可视化 #numpy科学计算工具箱 import numpy as np #使用make_classification构造1000个样本,每个样本有20个feature from sklearn.datasets import make_classification X...

2017-11-27 17:06:30

阅读数:1894

评论数:0

event_recommendation_competition

这个案例跟推荐系统相关,预测用户可能感兴趣的event。关于这个案例更多信息打开event_recommendation_competition。这里我直接讲解第一名的解决方案。这个方案中除了包含经典的机器学习解决步骤,还融合了推荐系统里传统的解决方法:基于用户的协同过滤,基于物品的协同过滤,当然...

2017-11-27 16:48:58

阅读数:388

评论数:0

基于图的推荐算法(PersonalRank)

本博文将介绍PersonalRank算法,以及该算法在推荐系统上的应用。  将用户行为数据用二分图表示,例如用户数据是由一系列的二元组组成,其中每个元组(u,i)表示用户u对物品i产生过行为。 将个性化推荐放在二分图模型中,那么给用户u推荐物品任务可以转化为度量Uv和与Uv 没有边...

2017-11-27 16:47:57

阅读数:859

评论数:1

利用用户标签数据

在之前的博文中介绍了三种方法给用户推荐物品。  1)UserCF:给用户推荐和他们兴趣爱好相似的其他用户喜欢的物品。  2) ItemCF:给用户推荐与他喜欢过的物品相似的物品。  3) LFM:通过一些特征来联系用户和物品,给用户推荐那些具有用户喜欢的特征的物品。  具体可以看我之前的博...

2017-11-27 16:46:18

阅读数:651

评论数:0

LFM

LFM(latent factor model)隐语义模型核心思想是通过隐含特征联系用户兴趣和物品。  相比USerCF算法(基于类似用户进行推荐)和ItemCF(基于类似物品进行推荐)算法;我们还可以直接对物品和用户的兴趣分类。对应某个用户先得到他的兴趣分类,确定他喜欢哪一类的物品,再在这个类...

2017-11-27 16:44:21

阅读数:274

评论数:1

userCF算法

一:  推荐系统任务:联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产中的双赢。 长尾理论:传统80/20(%80销售额来自于20%热门商品)原则在互联网加入下受到挑战。长尾商品销售额是个不容小觑的数字,也许会...

2017-11-27 16:42:12

阅读数:1070

评论数:0

概率分布之间的距离度量以及python实现

概率分布之间的距离度量以及python实现 1. 欧氏距离(Euclidean Distance)        欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。 (1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a...

2017-11-23 18:23:35

阅读数:869

评论数:0

SparkML之回归(三)保序回归

在写這篇博客的时候,翻阅了一些互联网上的资料,发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误,所以我在此简述一些。如果推理不过去了。可以看看我的简述。 ------------------------------------前言 背景: (...

2017-11-20 15:22:30

阅读数:233

评论数:0

【Spark2.0源码学习】-9.Job提交与Task的拆分

在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用户任务类(或者任务代码)进行分析   一、整体预览           基于上篇图做了扩展,增加任务执行...

2017-11-11 15:59:40

阅读数:159

评论数:0

Spark SQL利器:cacheTable/uncacheTable

Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。   假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下:   ...

2017-11-10 10:13:50

阅读数:105

评论数:0

Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; l驱动程序(...

2017-11-10 10:11:30

阅读数:87

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭