大数据
文章平均质量分 69
andrewgb
这个作者很懒,什么都没留下…
展开
-
Hive 之表的种类以及相关操作
关于Hive 的表的介绍以及一些表的操作的总结,最后再一次回顾Hive在生态圈里所处的位置原创 2015-08-08 16:58:54 · 3501 阅读 · 0 评论 -
HBase 总结之HBase作为输出源
简介:HBase 作为输出源,即从其他存储介质中,使用MapReduce计算后将结果输出到HBase中。下面直接上代码:主程序package apache.org.myhbase.asoutput;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.had原创 2016-01-10 15:19:17 · 984 阅读 · 0 评论 -
HBase 总结之HBase作为输入源
简介:HBase 作为输入源,即从HBase中读取数据,使用MapReduce计算完成之后,将数据存储到其他介质中。下面直接上代码:主程序package apache.org.myhbase.asinput;import org.apache.commons.logging.Log;import org.apache.commons.logging.LogFactory;import org原创 2016-01-10 15:09:39 · 832 阅读 · 0 评论 -
HBase 总结之 Java API 介绍
相关类与HBase数据模型之间的对应关系 java类 HBase数据模型 HBaseAdmin 数据库(DataBase) HBaseConfiguration 数据库(DataBase) HTable 表(Table) HTableDescriptor 列族(Column Family) Put 列修饰符(Column Qualifier) Get转载 2016-01-09 23:01:19 · 296 阅读 · 0 评论 -
HBase 总结之对表的基本操作
环境介绍: hadoop2.2.0+hbase0.98.16package apache.org.myhbase.dao;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apa原创 2016-01-09 22:28:17 · 432 阅读 · 0 评论 -
hadooop 之 FileInputFormat 类
1.FileInputFormat 类介绍FileInputFormat 是所有使用文件作为数据源的 InputFormat 实现的基类提供两个功能: 1.用于支出作业的输入文件的位置; 2.输入文件生成分片的实现代码段;类结构图: 2.通过 FileInputFormat 指定输入路径2.1 指定路径FileInputFormat 提供的四种静态方法:public static v原创 2015-11-01 23:02:43 · 1174 阅读 · 0 评论 -
Hadoop 之 日志管理——应用在 YARN 中运行时的日志
背景:在写这篇博文前,自己一直没有弄明白一个问题,“在 Map 函数和 Reduce 函数中使用 System.out.print 打印日志时,输出内容在哪里显示?”。试了好多回,在 log/* 目录下找了很久都没有找到,并且尝试了很多次去找,都没有成功。这让我想通过此方法调试 Map/Reduce 函数以失败告终。最后,一次偶然的机会让我发现了关于日志的玄机。通过自己的观察和阅读参考书籍,终于弄明原创 2016-02-01 23:19:34 · 12118 阅读 · 1 评论 -
Hadoop 之 文件切分算法
文件切分算法主要用于确定 InputSplit 的个数,以及每个 InputSplit 对应的数据段。FileInputFormat 以文件为单位切分生成 InputSplit。对于新旧 MapReduce 有各自确定 InputSplit 大小的计算公式。在旧方法中,由以下三个属性值确定其对应的 InputSplit 的个数: 1. goalSize:根据用户期望的 InputSplit 数目计原创 2016-02-02 22:32:25 · 6872 阅读 · 0 评论 -
Hadoop 之 HDFS 的数据完整性
Hadoop 用户肯定都不希望系统在存储和处理数据时不会丢失或者损坏任何数据。接下来,我们来考究一下 HDFS 在为了保证数据完整性,所做的工作。总的来说,HDFS 会对写入的数据计算校验和,并在读取数据时验证校验和。datanode 负责收到数据后存储该数据及其校验和。datanode 的数据来源可分为两种,其一为是从客户端收到的数据,其二为从其他 datanode 复制来的数据。还有一种情况,正原创 2016-02-02 23:20:05 · 2257 阅读 · 0 评论 -
Hadoop 之 Combiner 与自定义 Combiner
一、Combiner的出现背景1.1 回顾Map阶段五大步凑在第四篇博文《初识MapReduce》中,我们认识了MapReduce的八大步凑,其中在Map阶段总共五个步凑,如下图所示: 其中,step1.5是一个可选步凑,它就是我们今天需要了解的 Map规约 阶段。现在,我们再来看看前一篇博文《计数器与自定义计数器》中的第一张关于计数器的图: 我们可以发现,其中有两个计数器: Combine o转载 2016-02-03 19:47:14 · 804 阅读 · 0 评论 -
Hadoop 之 数据流——客户端与HDFS,namenode和datanode 之间的数据流
1.文件读取客户端通过调用 FileSystem 对象的 open() 方法来打开想读取的文件,对于 HDFS 来说,这个对象是分布式文件系统(DistributedFileSystem)的一个实例,如上图步骤1。DistributedFileSystem 通过使用 RPC 来调用 namenode ,获取文件的存储位置,以确定文件起始块的位置,如上图步骤2。namenode 返回文件所有组成块原创 2016-01-28 23:08:29 · 3820 阅读 · 0 评论 -
Hadoop 中 YARN和MV2以及ApplicationMaster
ApplicationMaster是什么?ApplicationMaster 是一个框架特殊的库,对于 Map-Reduce 计算模型而言有它自己的 ApplicationMaster 实现,对于其他的想要运行在 yarn上的计算模型而言,必须得实现针对该计算模型的 ApplicationMaster 用以向 ResourceManager 申请资源运行 task。比如运行在 yarn上的spark原创 2016-01-28 23:51:43 · 1348 阅读 · 0 评论 -
建立物品的同现矩阵的过程 和 同现矩阵*评分矩阵的意义
建立同现矩阵的过程在协同过滤算法中同现矩阵的建立是极其关键的一部,而在大多数的博客文章中大多都没有详细说明矩阵的建立过程。在此详细说明一下:原始数据如下所示:1,101,5.01,102,3.01,103,2.52,101,2.02,102,2.52,103,5.02,104,2.03,101,2.03,104,4.03,105,4.53,107,5.04,101,5.04,原创 2016-02-28 16:29:37 · 9787 阅读 · 9 评论 -
用 Hadoop 构建电影推荐系统 之 总结
在看了这篇博文后,感觉学到了很多东西。讲推荐系统的构建思路http://blog.fens.me/hadoop-mapreduce-recommend/总结一下,有以下几点:怎样构建物与物之间的关联性。这篇博文是通过同现矩阵构造两部电影之间的关系的。怎样通过一个物体的受欢迎程度推算出另一个物体的受欢迎程度。这里是通过同现矩阵和评分矩阵相乘得到的推算结果。原创 2016-02-28 21:42:03 · 7530 阅读 · 0 评论 -
HBase 总结之HBase作为共享源
简介:HBase作为共享源,即HBase作为输入源,同时作为输出源。通俗的讲,就是从HBase中读取数据,使用MapReduce处理过后,再将处理的结果存入HBase中去。下面直接上代码:package apache.org.myhbase.asshare;import java.io.IOException;import org.apache.hadoop.conf.Configuration;原创 2016-01-10 15:25:38 · 1035 阅读 · 0 评论 -
HBase 总结之基础入门
HBase0.98.0看到的一篇不错的入门博文: http://my.oschina.net/vigiles/blog/215885#OSC_h2_12HBase中对表的增删改查基础: http://javacrazyer.iteye.com/blog/1186881原创 2016-01-10 15:37:08 · 332 阅读 · 0 评论 -
HBase 与 Hive 的区别和关系
看到了很多博文中对HBase 与 Hive 的区别做了一些说明,关于这个问题,在刚开始学习 HBase 和 Hive 时就有了这个问题在我脑海中,所以在看到这些博文后,忽然觉得茅塞顿开,可能还需要一段时间的消化和吸收,但是已经比之前明白了许多,写下这篇博文,供日后使用。一 由简入繁,通俗的说看到一篇博文,是这样理解的。hive是什么? 白话一点再加不严格一点,hive可以认为是map-reduc原创 2016-01-10 18:21:33 · 12000 阅读 · 1 评论 -
Hadoop 在使用过程中常遇到的问题
hadoop在使用过程中遇到的问题,总结出来方便以后查看原创 2015-08-07 22:27:23 · 1097 阅读 · 0 评论 -
HADOOP生态系统
Hadoop生态系统的介绍原创 2015-08-08 18:07:42 · 547 阅读 · 0 评论 -
HBase 简介以及个人理解(原理,基本概念,基本架构)
1.HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。2.基础知识2.1数据模型HBASE中的每一原创 2015-08-22 21:01:20 · 887 阅读 · 0 评论 -
Hive 之初认识以及安装
1.Hive是什么?Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。原创 2015-08-05 00:11:07 · 303 阅读 · 0 评论 -
Hive 之使用mysql作为hive的metastore
使用mysql作为metastore,安装mysql和配置文件原创 2015-08-07 23:03:06 · 3869 阅读 · 1 评论 -
HDFS 维护节点
添加DataNode、卸载DataNode、以及使用fsck检查文件系统的一致性原创 2015-08-19 22:59:18 · 884 阅读 · 0 评论 -
Hive 之再认识
1.Hive的运行方式Hive的运行模式即任务的执行环境,分为本地与集群两种,我们可以通过mapred.job.tracker 来指明,设置方式:hive > SET mapred.job.tracker=local;2.Hive的启动方式hive 命令行模式,直接输入#/hive/bin/hive的执行程序,或者输入 #hive --service cli hive web界面的 (端口号原创 2015-08-07 23:46:19 · 1082 阅读 · 0 评论 -
Hadoop 中Yarn的理解
YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。YARN 分层结构的本质是 ResourceManager。 这个实体控制整个集群并管理应用程序向基础计原创 2015-09-22 19:34:41 · 855 阅读 · 0 评论 -
Storm 安装参考,以及遇到问的问题
http://www.linuxidc.com/Linux/2012-08/68916.htm原创 2015-12-13 15:20:13 · 368 阅读 · 0 评论 -
HBase 集群环境搭建-基于Hadoop2.2.0
说明:此次事件用到的HBase为HBase0.96.0,搭建在Hadoop2.2.0版本上。一 安装前需检查内容:jdk,hadoop2.2.0 是否已正确安装;检查集群 SSH 环境是否成功;NTP:集群的时钟要保证基本的一致,看每台机器的时间是否一样, 如果你查询的时候或者是遇到奇怪的故障,可以检查一下系统时间是否正确。 设置集群各个节点时钟date -s “2014-04-18 1原创 2015-12-28 21:44:44 · 476 阅读 · 0 评论 -
HBase 开发环境搭建(Eclipse+Maven)
利用Eclipse+Maven构建开发环境原创 2015-12-30 22:41:56 · 13277 阅读 · 0 评论 -
关于 Storm 的一篇好文章
摘自叙明明的博客,从个人角度来开,是一篇很对胃口的文章。http://xumingming.sinaapp.com/138/twitter-storm%E5%85%A5%E9%97%A8/原创 2015-12-22 22:37:40 · 479 阅读 · 0 评论 -
Hadoop 之 Shuffle 和排序---再理解
其实在我的一篇博文中,已经对Shuffle有了自己的总结,但是,回过头来再看的时候,觉得又可以再深层次的理解和记忆跟细节的东西。有必要再进行一次知识的输出—不知道在哪里看到的一句话,知识的输出是更残忍的输入。内容的理解来源于《Hadoop 权威指南(第三版)》,P226 页。一 总述MapReduce 确保每个 reducer 的输入都是按键排序的。Shuffle 这一过程可以说是系统执行排序的过程原创 2016-01-26 20:30:21 · 4309 阅读 · 0 评论 -
ZooKeeper 简介以及服务器集群的搭建
1.简介ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。2.集群搭建zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。在hadoop0这台机器上的/usr/local目录下,解原创 2015-08-22 18:19:06 · 1357 阅读 · 0 评论