大数据
文章平均质量分 60
namelessml
这个作者很懒,什么都没留下…
展开
-
[完]Spark安装学习实践
介绍如何在Hadoop2.60伪分布式的基础上,安装Spark。在Spark Shell下编写代码,和编写Scala和Java独立程序,以及简单的RDD操作。原创 2016-09-14 20:36:39 · 1439 阅读 · 0 评论 -
[完]Spark 基础知识
为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;为了使编程更容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式编程体验。与Hadoop相比,Spark使用十分之一的计算资源,可获得比Hadoop快3倍的速度。一、Spark与HadoopSpark特点: 运行速度快:采用DAG(Directed Acyclic Graph,有向无环图)执行引擎,以原创 2016-09-19 10:49:12 · 3069 阅读 · 0 评论 -
[完]基于Hadoop的数据仓库Hive 基础知识
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1-1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定原创 2016-09-21 15:47:38 · 22346 阅读 · 4 评论 -
Hive安装过程遇到的问题
问题:$ hiveLogging initialized using configuration in jar:file:/usr/local/hive/lib/hive-common-1.2.1.jar!/hive-log4j.properties Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeExc原创 2016-09-28 11:21:40 · 4026 阅读 · 0 评论 -
[完]Hadoop中DataNode在格式化Namenode后无法启动。
一般情况下,出现这个问题的原因是namenode和datanode的clusterID不一致。namenode每次格式化时,会更新clusterID,但是datanode只会在首次格式化时确定,因此就造成不一致现象。原创 2016-11-18 16:45:46 · 2969 阅读 · 0 评论 -
Hive安装、配置,HQL,实践
一、Hive安装 官方下载地址:http://www.apache.org/dyn/closer.cgi/hive/,可在其中寻找镜像 下载安装命令: wget http://mirror.bit.edu.cn/apache/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz sudo tar -zxf apache-hive-1.2.1-bin.tar.gz原创 2016-09-24 22:22:55 · 1297 阅读 · 0 评论