- 博客(9)
- 资源 (19)
- 收藏
- 关注
转载 利用采样器实现mapreduce任务输出全排序
采样器是hadoop内自带的一个可以对目标文件部分数据进行提取的工具类,以方便我们对这些采样的数据做一些参考或者处理。hadoop提供了多种采样器供我们使用,以满足不同的需求。另外,采样器不同于普通mapreduce操作。它是直接在客户端机器上运行的。常见采样器IntervalSampler 以一定的间隔定期从划分中选择key,对有排序的数据来说更好RandomSame
2016-06-26 11:50:43 3166
原创 hadoop中NameNode、DataNode、Secondary、NameNode、ResourceManager、NodeManager 介绍
1:NameNode2:SecondNameNode3:DataNode4:ResourceManage1、NameNode介绍 Namenode 管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像
2016-06-25 17:40:05 27609 7
原创 Hive的数据类型解析和表的操作实例
一:Hive中的数据类型Hive支持两种数据类型,一类叫原子数据类型,一类叫复杂数据类型。 原子数据类型包括数值型、布尔型和字符串类型,具体如下表所示:基本数据类型类型描述示例TINYINT1个字节(8位)有符号整数1SMALLINT2字节(16位)
2016-06-21 20:00:39 9412
原创 Spark RDD编程(Python和Scala版本)
Spark中的RDD就是一个不可变的分布式对象集合,是一种具有兼容性的基于内存的集群计算抽象方法,Spark则是这个方法的抽象。 Spark的RDD操作分 和为转化操作(transformation)和行动操作(action),两者的区别在于: 转化操作返回一个新的RDD对象 行动操作则会对RDD产生一个计算结果,并把结果返回到驱动器
2016-06-18 11:08:15 10522 2
原创 Spark 的 Shell操作,核心概念,构建独立应用
1:Spark中的Python和Scala的shell2:Spark核心概念简介3:独立应用4:Spark数据集一:Spark中的Python 和Scala 的shell 1:shell设置显示日志 进入Spark的安装目录,启动spark的集群,输入bin/pyspark,但此时会伴有大量的日志信息,在这里想要缩减启动信息
2016-06-17 19:53:33 3946
原创 《推荐系统》基于图的推荐算法
1:概述2:原理简介3:代码实现一:概述 基于图的模型(graph-based model)是推荐系统中的重要内容。其实,很多研究人员把基于邻域的模型也称为基于图的模型,因为可以把基于邻域的模型看做基于图的模型的简单形式 在研究基于图的模型之前,首先需要将用户的行为数据,表示成图的形式,下面我们讨论的用户行为数据是用二元数组组成的,其中每个二元组
2016-06-16 20:57:32 20872 8
原创 《推荐系统》基于标签的用户推荐系统
打开微信扫一扫,关注微信公众号【搜索与推荐Wiki】转载请注明出处:http://blog.csdn.net/gamer_gyt博主微博:http://weibo.com/234654758Github:https://github.com/thinkg...
2016-06-16 11:17:30 41927 15
原创 Spark的伪分布安装和wordcount测试
一:环境说明 Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的) Hadoop:2.6 Scala:2.11.8 Java:1.7.0 Spark:1.6.12:hadoop伪分布安装
2016-06-11 22:31:04 4993
原创 《Hadoop进阶》利用Hadoop构建豆瓣图书推荐系统
转载请注明出处: 转载自 Thinkgamer的CSDN博客:blog.csdn.net/gamer_gyt代码下载地址:点击查看1:推荐系统概述2:需求分析:推荐系统的指标设计3:算法模型:基于物品的协同过滤并行算法设计4:架构设计:推荐系统架构5:程序实现:MR2V程序实现6:推荐系统评估一、推荐
2016-06-11 11:32:56 20307 25
word2vec.zip
2019-11-13
NLP汉语自然语言处理原理与实战
2018-06-15
gephi-0.9.1-windows.exe
2017-02-14
mysql-connector-java-5.0.4-bin.jar
2017-02-14
commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar
2016-07-28
从疝气病症预测病马的死亡率的测试数据集
2016-04-25
十大算法之线性查找算法
2015-07-29
securboot未完全配置消除补丁
2014-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人