利用采样器实现mapreduce任务输出全排序

采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。 常见采样器 IntervalSampler 以一定的间隔定期从划分中选择key,对有排序的数据来说更好 RandomSame...
阅读(932) 评论(0)

hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍

1:NameNode 2:SecondNameNode 3:DataNode 4:ResourceManage 1、NameNode介绍        Namenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像...
阅读(8928) 评论(0)

Hive的数据类型解析和表的操作实例

一:Hive中的数据类型 Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。   原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示: 基本数据类型 类型 描述 示例 TINYINT 1个字节(8位)有符号整数 1 SMALLINT 2字节(16位)...
阅读(3751) 评论(0)

Spark RDD编程(Python和Scala版本)

Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。        Spark的RDD操作分 和为转化操作(transformation)和行动操作(action),两者的区别在于:        转化操作返回一个新的RDD对象        行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器...
阅读(5274) 评论(2)

Spark 的 Shell操作,核心概念,构建独立应用

1:Spark中的Python和Scala的shell 2:Spark核心概念简介 3:独立应用 4:Spark数据集 一:Spark中的Python 和Scala  的shell        1:shell设置显示日志        进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息...
阅读(1959) 评论(0)

《推荐系统》基于图的推荐算法

1:概述 2:原理简介 3:代码实现 一:概述         基于图的模型(graph-based model)是推荐系统中的重要内容。其实,很多研究人员把基于邻域的模型也称为基于图的模型,因为可以把基于邻域的模型看做基于图的模型的简单形式         在研究基于图的模型之前,首先需要将用户的行为数据,表示成图的形式,下面我们讨论的用户行为数据是用二元数组组成的,其中每个二元组...
阅读(7504) 评论(2)

[置顶] 《推荐系统》基于标签的用户推荐系统

1:联系用户兴趣和物品的方式 2:标签系统的典型代表 3:用户如何打标签 4:基于标签的推荐系统 5:算法的改进 源代码查看地址:github查看 一:联系用户兴趣和物品的方式     推荐系统的目的是联系用户的兴趣和物品,这种联系方式需要依赖不同的媒介。目前流行的推荐系统基本上是通过三种方式联系用户兴趣和物品。                                           1:利用用户喜欢过的物品,给用户推荐与他喜欢过的物品...
阅读(15506) 评论(7)

Spark的伪分布安装和wordcount测试

一:环境说明              Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)              Hadoop:2.6              Scala:2.11.8              Java:1.7.0              Spark:1.6.1 2:hadoop伪分布安装...
阅读(2651) 评论(0)

《Hadoop进阶》利用Hadoop构建豆瓣图书推荐系统

转载请注明出处: 转载自  Thinkgamer的CSDN博客:blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:推荐系统概述 2:需求分析:推荐系统的指标设计 3:算法模型:基于物品的协同过滤并行算法设计 4:架构设计:推荐系统架构 5:程序实现:MR2V程序实现 6:推荐系统评估 一、推荐...
阅读(11419) 评论(7)
    Thinkgamer微博
    微信公众号【码农故事多】
    个人资料
    • 访问:873336次
    • 积分:10380
    • 等级:
    • 排名:第1802名
    • 原创:218篇
    • 转载:22篇
    • 译文:2篇
    • 评论:294条
    个人简介
    姓名:Thinkgamer

    Github:https://github.com/thinkgamer

    主攻:云计算/python/数据分析

    程度:熟悉/熟悉/熟悉

    微信:gyt13342445911

    Email:thinkgamer@163.com

    工作状态:在职ing

    心灵鸡汤:只要努力,你就是下一个大牛...

    hadoop/spark/机器学习群:279807394(大神建的群,蹭个管理员)

    欢迎骚扰........
    博客专栏
    最新评论