关闭

Hive数据的导入导出和查询方式

一、导入数据进入Hive表的几种方式 1)加载本地文件到hive表 load data local inpath '/opt/datas/emp.txt' into table default.emp ; 2)加载hdfs文件到hive中 load data inpath '/user/beifeng/hive/datas/emp.txt' overwrite in...
阅读(18) 评论(0)

Hive初探

一、什么是Hive        Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。           ##构建在Hadoop上的数据仓库                  使用HQL作为查询接口                  使用HDFS存储;                  使用MapReduce计算       ...
阅读(80) 评论(0)

生产环境的Hadoop版本比较

一、背景介绍 生产环境中,hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。 Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。H...
阅读(292) 评论(0)

基于Hadoop大数据分析

一、Hadoop的应用业务分析 大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。 目前主流的三大分布式计算系统分别为Hadoop、Spark和Strom: Hadoop当前大数据管理标准之一,运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发,允...
阅读(61) 评论(0)

大数据开源处理工具汇总

查询引擎 一、Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可嵌入的JDBC驱动。 Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan,并编排执行以生成标准的JDBC结果集。直接使用HB...
阅读(1350) 评论(0)

MapReduce计算模型

MapReduce(YARN)是Hadoop提供的一种处理海量数据的并行编程模型和计算框架,用于对大规模的数据进行并行计算。主要由resourcemanager和nodemanager两类节点构成。其中resourcemanager主要负责集群资源管理,nodemanager负责节点的资源管理。除此之外,当运行mapreduce任务的时候,会产生ApplicationMaster和Containe...
阅读(66) 评论(0)

大数据的学习规划

大数据方向的工作目前分为三个主要方向: 01.大数据工程师 02.数据分析师 03.大数据科学家 04.其他(数据挖掘本质算是机器学习,不过和数据相关,也可以理解为大数据的一个方向吧) 一、大数据工程师的技能要求 二、大数据学习路径 三、学习资源推荐(书籍、博客、网站) 一、大数据工程师的技能要求 总结如下: 必须技能10条: 01.J...
阅读(72) 评论(0)

初探Hadoop 2.x

Hadoop 2.x * common * HDFS 存储数据 NameNode * 存储文件系统的元数据,命名空间namespace DataNode * 存储数据 SecondaryNameNode * 辅助NAmeNode工作,合并两个文件(定时周期性) * YRAN Hadoop 操作系统 Data 操作系统 Container ResouceManager...
阅读(97) 评论(0)

Hadoop eclipse插件安装和在eclipse运行wordcount程序

一、插件下载点击打开链接            二、插件配置参考:插件配置                 三、运行配置:         四、运行结果...
阅读(153) 评论(0)

Hadooop运行WordCount(Hello world)程序

一、 Hadoop2.7.3安装并配置成功 二、 在HDFS中创建input文件目录        hadoop fs -mkdir /input       三、当前在hadoop-2.7.3的目录下,有个LICENSE.txt的文件,把它放到hdfs的input目录下面    hadoop fs -put LICENSE.txt  /input     四、 ...
阅读(221) 评论(0)

CentOS7搭建 Hadoop + HBase + Zookeeper集群

一、基础环境准备 1、下载安装包 1)jdk-8u131 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2)hadoop-2.7.3 下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/comm...
阅读(178) 评论(0)

搭建Hadoop并在集群中运行

一、简介     Hadoop的安装由4种类型的节点构成: NameNode 、DataNode、JobTracker和 TaskTracker.     Hadoop提供三种安装方式:    (1)本地模式:一种解压缩即运行的模式,Hadoop的各个部分都运行在同一个JVM中。    (2)伪分布式模式:使用不同的java虚拟机运行Hadoop的不同部分,但这些java虚拟机运行在同一台...
阅读(181) 评论(0)

大数据到哪里去

一、大数据与政府治理     政府是一个国家最重要的决策主体,其决策是否科学,直接决定了政府的治理能力和治理效果,大数据是一场治理革命,通过全息的数据呈现,使政府从"主观主义" "经验主义"的治理方式,迈向"实事求是""数据驱动"的治理方式。    (1)百度迁徙       (2)智慧警务      二、大数据与经济治理      三、大数据与公共服务...
阅读(297) 评论(0)

大数据之HDFS

一、HDFS概述 HDFS(Hadoop Distributed File System)基于Google发布的GFS论文设计开发,运行在通用硬件上的分布式文件系统。        其除具备其它分布式文件系统相同特性外,还有自己特有的特性:        高容错性:认为硬件总是不可靠的        高吞吐量:为大量数据访问的应用提供高吞吐量支持        大文件存储:支持存储T...
阅读(158) 评论(0)

大数据与Hadoop生态系统

一、Hadoop特性    (1)数据预先就是分布式的    (2)数据再整个计算机集群中进行备份,保证了可靠性和可用性...
阅读(208) 评论(0)
19条 共2页1 2 下一页 尾页
    个人资料
    • 访问:169419次
    • 积分:5271
    • 等级:
    • 排名:第5529名
    • 原创:220篇
    • 转载:177篇
    • 译文:120篇
    • 评论:34条
    个人博客
    最新评论