草原孤狼的专栏

能记下点什么、就积点什么!!!

spark 属性配置

1.Spark1.x 属性配置方式       Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。       在Spark1.0.0提供了3种方式的属性配置: SparkConf方式 SparkConf方式可以直接将属性值传递到SparkContext;Spar...

2015-07-01 23:38:50

阅读数:2292

评论数:0

spark 安装和使用

前言 早在很前,都已经安装过了集群了,那个时候的版本还很低,http://blog.csdn.net/supingemail/article/details/8835743 ,最近因为项目的需要,又开始屁颠屁颠的去学习hadoop的一套东西了... ...  淡不扯了,还是进入正题,看看hadoo...

2015-07-01 22:37:07

阅读数:2403

评论数:0

Hadoop MetaData(元数据) 介绍. 和Block File 信息获得

hadoop 管理数据的机制      hadoop 用来存储文件是很好,但是要去对存储好的文件进行update,delete,操作,相对就不是那么好操作了,但是非要 做这样的操作,该如何办呐 ?      a. 先去看hadoop 存文件是怎么存的,是怎么读|写的,      b.根据a 的结论...

2015-06-02 16:29:15

阅读数:5405

评论数:0

Drill 大数据高级查询工具

简介 Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用ANSI SQL兼容语法,支持本地文件、HDFS、HBase、MongoDB等后端存储,支持Parquet、JSON、CSV、TSV、PSV等数据格式。受Google的Dremel启...

2015-05-29 20:24:36

阅读数:1894

评论数:1

Impala 大数据测试

准备环境(安装好Impala在linux系统上,),测试数据和创建数据库 : 1.Generate Test Data. execute the follwing commands: a:mkdir test ; cd test b:wget http://elasticmapreduce....

2015-05-21 11:59:22

阅读数:681

评论数:0

Hadoop 编码

hadoop 编码 看看都会有点收益的。。。。

2015-04-24 16:44:57

阅读数:353

评论数:0

Impala——官方文档翻译

参考链接:http://blog.csdn.net/jiadebin890724/article/details/38822331 Cloudera Impala User Guide:http://www.cloudera.com/content/cloudera-content/cloude...

2015-04-20 16:11:48

阅读数:815

评论数:0

Impala ——架构分析

文字来自:http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能够查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有...

2015-04-20 10:47:10

阅读数:2046

评论数:0

Hadoop常用工具

Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来。有些项目负责数据管理、有些负责流程监控、还有一些则提供先进的数据存储机制。 H...

2013-12-17 09:09:15

阅读数:717

评论数:0

Hadoop 资讯

impala 1.0 和hive相媲美的新技术。 Impala 1.0中的特性 Impala 1.0的特性详情可以参考此文档,在这里先看一下摘要。为了集合上述特性,他们完成了所有Hadoop上实现SQL的事项:用以避免网络瓶颈的本地处理、交互式响应、本地数据的单储存池以及可同时对相同数据做不同...

2013-05-17 09:50:19

阅读数:554

评论数:0

Hadoop 调度器

目的   本文档描述了公平调度器(Fair Scheduler),这是一个用于Hadoop的插件式的Map/Reduce调度器,它提供了一种共享大规模集群的方法。   引言   公平调度是一种赋予作业(job)资源的方法,它的目的是让所有的作业随着时间的推移,都能平均的获取等同的共享资源。...

2013-04-26 16:00:05

阅读数:637

评论数:0

hadoop 体系介绍

1. Hadoop Common 从Hadoop 0.20版本开始,原来Hadoop项目的Core部分更名为Hadoop Common。Common为Hadoop的其他项目提供了一些常用工具,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统...

2013-04-25 14:26:17

阅读数:949

评论数:0

hadoop wordcount深入

hadoop是否支持中文的操作 这个是我的word.txt 的测试文件: 得到的结果是: 由此可以看出、hadoop是支持中文查找的、依赖的标准是:空格! 在本例的wordcount的查找中、HDFS的标准是按照空格来查找的、只要是空格出现的地方...

2013-04-23 13:36:05

阅读数:682

评论数:0

hadoop 权限

1. 可以在hdfs-site.xml中添加如下dfs.permissions  false的方式关闭文件权限检查 后期在逐步更新!

2013-04-22 18:00:46

阅读数:593

评论数:0

hadoop wiki

1.1. What is Hadoop? Hadoop is a distributed computing platform written in Java. It incorporates features similar to those of the Google File Syst...

2013-04-22 17:59:17

阅读数:925

评论数:0

hadoop 集群安装

环境:CentOs5、hadoop0.20.203、jdk1.6.0_29 namenode:centos1(ip:192.168.1.101) datanode:centos2(ip:192.168.1.103)、centos3(ip:192.168.1.104) 配置步骤: ...

2013-04-22 17:58:37

阅读数:605

评论数:0

hadoop wordcount

Hadoop版本:hadoop-1.0.4 第一步:先启动hadoop守护进程、在hadoop 的bin目录下执行。 1.格式化:hadoop namenode -format 2.启动服务:start-all.sh hadoop-daemon.sh start namenode...

2013-04-22 17:57:14

阅读数:812

评论数:0

hadoop 常用命令

启动Hadoop     进入HADOOP_HOME目录。     执行sh bin/start-all.sh     或者是在hadoop 的目录下能看到他的bin目录、执行:bin/start-all.sh 关闭Hadoop     进入HADOOP_HOME目录。     执...

2013-04-22 17:56:12

阅读数:646

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭