Hadoop之路
JNSimba
腹有诗书气自华,快叫我长胖一点吧~~~~~
展开
-
Phoenix入门到精通
简介:此Phoenix系列文章将会从Phoenix的语法和功能特性、相关工具、实践经验以及应用案例多方面从浅入深的阐述。希望对Phoenix入门、在做架构设计和技术选型的同学能有一些帮助。概述Phoenix是一个开源的HBASE SQL层。它不仅可以使用标准的JDBC API替代HBASE client API创建表,插入和查询HBASE,也支持二级索引、事物以及多种SQL层优化。此系列文章将会从Phoenix的语法和功能特性、相关工具、实践经验以及应用案例多方面从浅入深的阐述。希望对Phoe.转载 2020-09-16 09:58:59 · 306 阅读 · 0 评论 -
Hadoop错误集锦(持续更新)
将自己在hadoop学习中遇到的错误贴出来,后续学习的朋友可以迅速解决问题java.net.NoRouteToHostException: No route to host at java.net.PlainSocketImpl.socketConnect(Native Method) at java.net.AbstractPlainSocketI原创 2015-05-05 16:13:54 · 2395 阅读 · 0 评论 -
Hadoop学习笔记之Hive
Hive是建立在hadoop上的一个框架,是对HDFS中的数据进行搜索,利用自己独有的HQL,所以也称数据仓库分析系统,提供了丰富的sql查询方式来分析存储在HDFS上的数据。HIVE为数据仓库的管理提供了许多功能:ETL(提取、转化、加载)工具,数据存储管理和大型数据集的查询和分析能力。Hive可将外部命令解析成一个MapReduce过程,交付给hadoop集群处理。Hive定义了类SQ原创 2015-05-31 13:26:22 · 1117 阅读 · 0 评论 -
Mapreduce的排序、全排序以及二次排序
排序在MapReduce中属于重要的概念,而且MapReduce过程本身就含有排序的概念MapReduce的排序是默认按照Key排序的,也就是说输出的时候,key会按照大小或字典顺序来输出,比如一个简单的wordcount,出现的结果也会是左侧的字母按照字典顺序排列。下面讨论MapReduce几种不同的排序方式。部分排序、全局排序、二次排序。部分排序是MapReduce中默原创 2015-05-31 16:00:25 · 9614 阅读 · 0 评论 -
Hadoop深入研究之Configuration
Hadoop没有使用java.util.Properties管理配置文件,也没有用Apache Jakarta Commons Configuration管理配置文件,而是使用了一套独有的配置文件管理系统,使用org.apache.hadoop.conf.Configuration处理配置信息。Hadoop的配置文件采用xml格式 io.sort.factor 1原创 2015-05-26 20:36:10 · 1506 阅读 · 0 评论 -
HBase的那些事
本文是将网上有些博文的部分摘取出来,目的是对自己上一篇没有涉及到的进行补充摘自一下博文:http://blog.csdn.net/woshiwanxin102213/article/details/17584043http://jiajun.iteye.com/blog/899632==========================================转载 2015-05-16 14:04:13 · 756 阅读 · 0 评论 -
Hadoop学习笔记之初始HBase
Hbase 是Apache Hadoop的数据库,具有开源、分布式、可扩展和面向列存储的特点,借鉴谷歌的Bigtable思想。说到数据库,我们最开始使用的是关系型数据库,但是HBase不同于一般的关系型数据库,她介于Nosql和RDBMS之间,常常将其归为Nosql。HBase适合非结构化数据存储的数据库,而且是基于列的模式,一个数据行拥有一个可选择的键和任意数量的列,所以HBase是原创 2015-05-16 09:50:50 · 1333 阅读 · 0 评论 -
Hadoop集群搭建
准备环境:Win7内存4G,还是建议各位将内存升为8G,不然运行MR特别慢虚拟机三台,每台内存512MB======================================================================先配置三台主机的准备条件:1、修改linux主机名2、修改IP3、修改主机名与映射关系4、关闭防火墙5、原创 2015-05-05 15:37:31 · 732 阅读 · 0 评论 -
Hadoop学习笔记之深入浅出MR
MapReduce 有一则形象的博文,如何向妻子解释MapReduce http://www.csdn.net/article/2011-08-26/303688 其实MapReduce在日常生活中无处不在,像文章末尾说的数图书馆的书,每个人数一个书架(相当于Map),最后将每个人的数字加起来(Reduce)。MapReduce是一个计算框架,用于分布式计算。解决海量数据的计算问题。有一个普遍原创 2015-04-23 16:20:26 · 6414 阅读 · 1 评论 -
Hadoop学习笔记之RPC
RPC(Remote Procedure Call)百度百科上的解释:远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。RPC采用客户机/服务原创 2015-03-31 23:34:45 · 774 阅读 · 0 评论 -
Hadoop学习笔记之HDFS
HDFS体系结构:。。。。。。。HDFS通过三个重要的角色来进行文件系统的管理:NameNode,DataNode和Client。NameNode是HDFS的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Metadata存储在内存中(文件信息、及其对应的文件块信息和每一个块中的DataNode信息)原创 2015-03-31 00:22:08 · 1062 阅读 · 0 评论 -
Hadoop学习笔记之HDFS读取
通过java接口下载文件//下载文件,获取FileSystem的实例,FileSystem是抽象类,其实是获取DistributedFileSystem FileSystem fs = FileSystem.get(new URI("hdfs://itcast01:9000"),new Configuration()); //Returns the FileSystem原创 2015-03-31 22:49:39 · 1801 阅读 · 1 评论 -
Hadoop伪分布式安装流程
伪分布式模式的安装步骤:1、关闭防火墙如果是对外网提供的,没有必要关闭防火墙Hadoop集群一般是公司内部,多台几点之间要进行通信,需要占用一些端口但是这些端口有可能被防火墙保护起来,被拦截,这时我们需要关闭,其目的是就是减少出现不必要的麻烦 2、修改IP每一台机器都必须要有一个固定的IP3、修改Hostname主机名可以方便定位错误源4、设置ssh自动登录原创 2015-03-25 23:52:47 · 836 阅读 · 0 评论 -
Hadoop学习笔记之Hadoop简介
Apache Hadoop是一个开源的、可靠的、灵活的、分布式的计算系统(来自官网) 作者:Doug Cutting主要受Google三篇论文的启发(GFS、MapReduce、BigTable)Hadoop海量数据的存储(HDFS)Hadoop Distributed File System海量数据的分析(MapReduce)Hadoop2.0后出现Y原创 2015-03-25 22:18:16 · 759 阅读 · 0 评论