博客专栏  >  互联网   >  Hadoop大数据系列

Hadoop大数据系列

详细讲解Hadoop、Hive、Hbase、flume、sqoop等分布式工具的搭建、原理以及使用。

关注
3 已关注
20篇博文
  • 1 Hadoop伪分布式环境搭建

    Hadoop伪分布式环境搭建安装步骤: 1.创建用户,使用hadoop用户 2.修改主机名以及ssh免密码登录 3.jdk安装 4.hadoop安装1. Hadoop环境搭建-...

    2017-03-01 14:38
    245
  • 2 Hadoop Shell命令 启动命令和控制命令

    一、Hadoop Shell命令简单描述Hadoop的Shell命令主要分为两类,一类是启动命令,一类是控制/操作命令(hdfs+mapred+yarn)。其中启动命令位于sbin目录下面,控制/操作...

    2017-03-10 22:11
    390
  • 3. Windows eclipse+maven+Hadoop开发环境搭建

    一、Maven环境搭建——windows下载maven压缩包apache-maven-3.0.5-bin.zip,下载地址 http://archive.apache.org/dist/maven。搭...

    2017-03-11 09:12
    222
  • 4. HDFS 常用Java API 总结

    HDFS创建空文件方法:createNewFile 参数: f:指定要创建文件的路径,可以为相对路径。 返回值:如果创建成功返回true。否则返回false。package com.beif...

    2017-03-11 09:22
    325
  • 5. MapReduce 结构与wordcount编程案例

    MapReduce结构介绍MapReduce(YARN)是Hadoop提供的一种处理海量数据的并行编程模型和计算框架,用于对大规模的数据进行并行计算。主要由resourcemanager和nodema...

    2017-03-11 09:36
    194
  • 5.1 MapReduce案例——倒排索引

    MapReduce案例——倒排索引完成功能:统计一系列文本文件中的每个单词构成的倒排索引。 分析: 1. 倒排索引主要是用来存储某个单词在一个文档中或者一组文档中出现的位置映射关系,即提供一个...

    2017-03-11 09:42
    176
  • 5.x Windows eclipse Hadoop开发 DEBUG小结

    DEBUG: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0Exception in thread "main" java.lang.Un...

    2017-03-11 09:49
    167
  • 6 MapReduce之 InputFormat和OutputFormat

    用户自定义数据类型MapReduce中的数据类型至少有两种用途。第一个用途,这些类型定义的数据可以被序列化进行网络传输和文件存储,第二个用途,在shuffle阶段要可以进行大小比较。那么在hadoop...

    2017-03-11 09:54
    189
  • 6.1 Hadoop MongoDB案例

    实现功能:从MongoDB中读取日志数据,将MapReduce程序处理过的数据写出到MongoDB中。 一、MongoDB 安装(Windows)1、安装Mongodb 运行mongodb-win3...

    2017-03-11 10:06
    190
  • 7 MapReduce进阶之shuffle阶段

    Shuffle阶段说明 shuffle阶段主要包括map阶段的combine(压缩)、group、sort、partition以及reducer阶段的合并排序。Map阶段通过shuffle后会将...

    2017-03-12 08:31
    203
  • 8 HBase结构介绍

    HBase介绍HBase是参考google的bigtable的一个开源产品,建立在hdfs之上的一个提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。是一种介于nosql和RDBMs之间的一...

    2017-03-12 08:28
    176
  • 9 hbase shell 客户端

    HBase 命令介绍HBase命令主要分为两大类,第一类是指操作hbase表的相关的shell命令;第二类是提供hbase其他相关服务的命令。第一类命令全部在hbase shell命令中,那么第二类命...

    2017-03-12 08:51
    215
  • 10 hbase Java API

    Java客户端Java客户端其实就是shell客户端的一种实现,操作命令基本上就是shell客户端命令的一个映射。Java客户端使用的配置信息是被映射到一个HBaseConfiguration的实例对...

    2017-03-12 08:55
    215
  • 11 HBase和MpaReduce整合

    环境搭建搭建步骤: 在etc/hadoop目录中创建hbase-site.xml的软连接。在真正的集群环境中的时候,hadoop运行mapreduce会通过该文件查找具体的hbase环境信息。 将hb...

    2017-03-12 09:03
    168
  • 12 Hive介绍和Hive环境搭建

    Hive介绍Hive是构建在Hadoop之上的数据仓库平台,设计目标就是将hadoop上的数据操作同SQL结合,让熟悉SQL编程的开发人员能够轻松的向Hadoop平台上转移。 Hive可以在HD...

    2017-03-12 09:17
    169
  • 13 Hive 服务介绍

    hive –service metastore & hiveHive服务介绍Hive默认提供的cli(shell)服务,如果需要启动其他服务,那么需要service参数来启动其他服务,比如thrif...

    2017-03-12 09:28
    140
  • 14 Hive shell 命令 DML命令

    导入数据Hive的导入数据基本上可以分为三类,第一种是从linux系统上导入数据到hive表中,第二种是从hdfs上导入数据到hive表中,第三种是从已有的hive表中导入数据到新的hive表中。其中...

    2017-03-12 09:39
    137
  • 15 Hive 函数与自定义函数

    Hive函数介绍HQL内嵌函数只有195个函数(包括操作符,使用命令show functions查看),基本能够胜任基本的hive开发,但是当有较为复杂的需求的时候,可能需要进行定制的HQL函数开发。...

    2017-03-12 09:48
    249
  • 16 flume安装、部署及案例

    1 Flume介绍Flume是Apache基金会组织的一个提供的高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume...

    2017-03-04 14:27
    271
  • 17 sqoop

    Sqoop介绍Sqoop是一款开源的工具【并不是框架】,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle…)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop...

    2017-03-12 09:54
    160

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部