Hadoop
supingemail
这个作者很懒,什么都没留下…
展开
-
Hbase、Kudu和ClickHouse横向对比
好记忆不如烂笔头,能记下点东西,就记下点,有时间拿出来看看,也会发觉不一样的感受.1 前言Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。Apache Kudu是Cloudera Manage转载 2020-09-22 10:34:10 · 12056 阅读 · 0 评论 -
Hadoop MetaData(元数据) 介绍. 和Block File 信息获得
hadoop 管理数据的机制 hadoop 用来存储文件是很好,但是要去对存储好的文件进行update,delete,操作,相对就不是那么好操作了,但是非要做这样的操作,该如何办呐 ? a. 先去看hadoop 存文件是怎么存的,是怎么读|写的, b.根据a 的结论,找到读|写的方式也就找到了如何去delete,update 的方式了. hado原创 2015-06-02 16:29:15 · 10783 阅读 · 0 评论 -
spark 属性配置
1.Spark1.x 属性配置方式 Spark属性提供了大部分应用程序的控制项,并且可以单独为每个应用程序进行配置。 在Spark1.0.0提供了3种方式的属性配置:SparkConf方式SparkConf方式可以直接将属性值传递到SparkContext;SparkConf可以对某些通用属性直接配置,如master使用setMaster,appname原创 2015-07-01 23:38:50 · 4448 阅读 · 0 评论 -
spark 安装和使用
前言早在很前,都已经安装过了集群了,那个时候的版本还很低,http://blog.csdn.net/supingemail/article/details/8835743 ,最近因为项目的需要,又开始屁颠屁颠的去学习hadoop的一套东西了... ... 淡不扯了,还是进入正题,看看hadoop 的伪分布式安装(知识这个玩意,真的是一天不用就生疏了,还必须要坚持才行,否则都是瞎扯淡)准原创 2015-07-01 22:37:07 · 2790 阅读 · 0 评论 -
Drill 大数据高级查询工具
简介Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化以及嵌套数据)交互式查询引擎,使用ANSI SQL兼容语法,支持本地文件、HDFS、HBase、MongoDB等后端存储,支持Parquet、JSON、CSV、TSV、PSV等数据格式。受Google的Dremel启发,Drill满足上千节点的PB级别数据的交互式商业智能分析场景。安装Drill可转载 2015-05-29 20:24:36 · 3962 阅读 · 1 评论 -
Impala 大数据测试
准备环境(安装好Impala在linux系统上,),测试数据和创建数据库 :1.Generate Test Data.execute the follwing commands:a:mkdir test ; cd testb:wget http://elasticmapreduce.s3.amazonaws.com/samples/impala/dbgen-1.0-ja原创 2015-05-21 11:59:22 · 999 阅读 · 0 评论 -
Hadoop 编码
hadoop 编码 看看都会有点收益的。。。。原创 2015-04-24 16:44:57 · 710 阅读 · 0 评论 -
Impala——官方文档翻译
参考链接:http://blog.csdn.net/jiadebin890724/article/details/38822331Cloudera Impala User Guide:http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/Impala/impala.html 1、Impala转载 2015-04-20 16:11:48 · 1720 阅读 · 0 评论 -
Impala ——架构分析
文字来自:http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-EngineImpala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能够查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但是由于Hive底层执行使用的是MapReduce引擎,仍然转载 2015-04-20 10:47:10 · 2826 阅读 · 0 评论 -
Hadoop 资讯
impala 1.0 和hive相媲美的新技术。Impala 1.0中的特性 Impala 1.0的特性详情可以参考此文档,在这里先看一下摘要。为了集合上述特性,他们完成了所有Hadoop上实现SQL的事项:用以避免网络瓶颈的本地处理、交互式响应、本地数据的单储存池以及可同时对相同数据做不同类型的处理:支持ANSI-92 SQL所有子集,包括CREATE, ALTER, SEL原创 2013-05-17 09:50:19 · 796 阅读 · 0 评论 -
Hadoop常用工具
Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来。有些项目负责数据管理、有些负责流程监控、还有一些则提供先进的数据存储机制。Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持、在托管集群中提供按转载 2013-12-17 09:09:15 · 981 阅读 · 0 评论 -
Hadoop 调度器
目的 本文档描述了公平调度器(Fair Scheduler),这是一个用于Hadoop的插件式的Map/Reduce调度器,它提供了一种共享大规模集群的方法。 引言 公平调度是一种赋予作业(job)资源的方法,它的目的是让所有的作业随着时间的推移,都能平均的获取等同的共享资源。当单独一个作业在运行时,它将使用整个集群。当有其它作业被提交上来时,系统会将任务(task)空闲时间片转载 2013-04-26 16:00:05 · 883 阅读 · 0 评论 -
hadoop 体系介绍
1. Hadoop Common从Hadoop 0.20版本开始,原来Hadoop项目的Core部分更名为Hadoop Common。Common为Hadoop的其他项目提供了一些常用工具,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提原创 2013-04-25 14:26:17 · 1356 阅读 · 0 评论 -
hadoop 集群安装
环境:CentOs5、hadoop0.20.203、jdk1.6.0_29namenode:centos1(ip:192.168.1.101)datanode:centos2(ip:192.168.1.103)、centos3(ip:192.168.1.104)配置步骤:(1)配置NameNode和DataNode修改每台机器的/etc/hosts(包括na原创 2013-04-22 17:58:37 · 796 阅读 · 0 评论 -
hadoop wordcount深入
hadoop是否支持中文的操作这个是我的word.txt 的测试文件:得到的结果是:由此可以看出、hadoop是支持中文查找的、依赖的标准是:空格!在本例的wordcount的查找中、HDFS的标准是按照空格来查找的、只要是空格出现的地方、就明显的列出了元素出现的次数。原创 2013-04-23 13:36:05 · 866 阅读 · 0 评论 -
hadoop wordcount
Hadoop版本:hadoop-1.0.4第一步:先启动hadoop守护进程、在hadoop 的bin目录下执行。1.格式化:hadoop namenode -format2.启动服务:start-all.sh hadoop-daemon.sh start namenode hadoop-daemon.sh start datanode (很多时候,这namenode和d原创 2013-04-22 17:57:14 · 1025 阅读 · 0 评论 -
hadoop wiki
1.1. What is Hadoop?Hadoop is a distributed computing platform written in Java. It incorporates features similar to those of the Google File System and of MapReduce. For some details, seeHadoopMap原创 2013-04-22 17:59:17 · 1657 阅读 · 0 评论 -
hadoop 权限
1. 可以在hdfs-site.xml中添加如下dfs.permissions false的方式关闭文件权限检查后期在逐步更新!原创 2013-04-22 18:00:46 · 940 阅读 · 0 评论 -
hadoop 常用命令
启动Hadoop 进入HADOOP_HOME目录。 执行sh bin/start-all.sh 或者是在hadoop 的目录下能看到他的bin目录、执行:bin/start-all.sh关闭Hadoop 进入HADOOP_HOME目录。 执行sh bin/stop-all.sh 同上。1、查看指定目录下内容原创 2013-04-22 17:56:12 · 1198 阅读 · 0 评论