自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Thinkgamer博客

《推荐系统开发实战》作者,「搜索与推荐Wiki」公号负责人,CyanScikit科技创始人...

转载 利用采样器实现mapreduce任务输出全排序

采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。 常见采样器 IntervalSamp...

2016-06-26 11:50:43

阅读数 1751

评论数 0

原创 hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍

1:NameNode 2:SecondNameNode 3:DataNode 4:ResourceManage 1、NameNode介绍        Namenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的...

2016-06-25 17:40:05

阅读数 20374

评论数 7

原创 Hive的数据类型解析和表的操作实例

一:Hive中的数据类型 Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。   原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示: 基本数据类型 类型 描述 示例 TINYINT 1个字节(8位)有符号整数 1 SMALL...

2016-06-21 20:00:39

阅读数 7009

评论数 0

原创 Spark RDD编程(Python和Scala版本)

Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。        Spark的RDD操作分 和为转化操作(transformation)和行动操作(action),两者的区别在于:        转化操作返回一个...

2016-06-18 11:08:15

阅读数 8235

评论数 2

原创 Spark 的 Shell操作,核心概念,构建独立应用

1:Spark中的Python和Scala的shell 2:Spark核心概念简介 3:独立应用 4:Spark数据集 一:Spark中的Python 和Scala  的shell        1:shell设置显示日志        进入Spark的安装目录,启动spark的集群,...

2016-06-17 19:53:33

阅读数 2839

评论数 0

原创 《推荐系统》基于图的推荐算法

1:概述 2:原理简介 3:代码实现 一:概述         基于图的模型(graph-based model)是推荐系统中的重要内容。其实,很多研究人员把基于邻域的模型也称为基于图的模型,因为可以把基于邻域的模型看做基于图的模型的简单形式         在研究基于图的模型之前,首先需要将用...

2016-06-16 20:57:32

阅读数 13969

评论数 5

原创 《推荐系统》基于标签的用户推荐系统

打开微信扫一扫,关注微信公众号【搜索与推荐Wiki】 转载请注明出处:http://blog.csdn.net/gamer_gyt 博主微博:http://weibo.com/234654758 Github:https://github.com/thinkg...

2016-06-16 11:17:30

阅读数 35186

评论数 15

原创 Spark的伪分布安装和wordcount测试

一:环境说明              Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)              Hadoop:2.6              Scala:2.11.8              Java:1.7.0          ...

2016-06-11 22:31:04

阅读数 3692

评论数 0

原创 《Hadoop进阶》利用Hadoop构建豆瓣图书推荐系统

转载请注明出处: 转载自  Thinkgamer的CSDN博客:blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:推荐系统概述 2:需求分析:推荐系统的指标设计 3:算法模型:基于物品的协同过滤并行算法设计 4:架构设计:推荐系统架构 5:程序实现:...

2016-06-11 11:32:56

阅读数 16381

评论数 25

提示
确定要删除当前文章?
取消 删除