IT新手村小蒋
码龄6年
关注
提问 私信
  • 博客:8,930
    8,930
    总访问量
  • 24
    原创
  • 1,178,644
    排名
  • 1
    粉丝
  • 0
    铁粉

个人简介:遇见的都是天意——拥有的都是幸运

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-02-28
博客简介:

JiangDongS的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得0次评论
  • 获得31次收藏
创作历程
  • 25篇
    2019年
成就勋章
TA的专栏
  • HBase
    4篇
  • Azkaban
    1篇
  • 大数据
    11篇
  • Hive
    1篇
  • 大数据配置
  • HDFS文件系统
    1篇
  • MapReduce
    7篇
  • Zookeeper
    3篇
兴趣领域 设置
  • 大数据
    hadoophiveetl
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

357人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Azkaban

Azkaban:​ 一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式,通过配置中的 dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系,并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。端口号为:8443Azkaban 特点:​ 1)兼容任何版...
原创
发布博客 2019.09.22 ·
350 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase 命令

HBase 基本命令:​ 1、进入 HBase 客户端:​ hbase shell​ 如果出现 jdk 的警告,则对 conf 下的 hbase-env.sh 文件中的 第 45-47 行进行注释:​ 2、查看帮助命令​ hbase(main)> help​ 3、查看当前数据库中有那些表​ hbase(main)> list​ 4、查看当前数据库中有哪些命名空...
原创
发布博客 2019.09.21 ·
319 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase 集群部署

HBase 部署:​ 1、首先保证 Zookeeper 集群的正常部署,并启动:​ zkServer.sh start​ 2、Hadoop 集群的正常部署并启动:​ start-dfs.sh​ start-yarn.sh​ 3、HBase 解压:​ 将 HBase 包解压到指定文件:tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt/mod...
原创
发布博客 2019.09.21 ·
265 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase

HBase:HBase 简介:​ HBase 是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。HBase 基于列的而不是基于行的模式。​ 大:上亿行、百万列​ 面向列:面向列的存储和权限控制,列独立检索​ 稀疏:对于为空的列,并不占用存储空间,因此,表设计得非常的稀疏HBase 角色:HMaster:​ 功能:​ 1、监控 RegionServe...
原创
发布博客 2019.09.21 ·
202 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase 原理

HBase:HBase 简介:​ HBase 是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。HBase 基于列的而不是基于行的模式。​ 大:上亿行、百万列​ 面向列:面向列的存储和权限控制,列独立检索​ 稀疏:对于为空的列,并不占用存储空间,因此,表设计得非常的稀疏HBase 角色:HMaster:​ 功能:​ 1、监控 RegionServe...
原创
发布博客 2019.09.19 ·
179 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop在一些常用命令及参数

常用命令列举​ 这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。序号命令类说明1importImportTool将数据导入到集群2exportExportTool将集群数据导出3codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jar4create-hiv...
原创
发布博客 2019.09.16 ·
572 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

Sqoop的导入导出

Sqoop 导入数据:​ 在 Sqoop 中,“导入”概念指:从非大数据集群(RDBMS)向大数据集群(HDFS,HIVE,HBASE)中传输数据,叫做:导入,即使用 import 关键字。RDBMS 到 HDFS:​ RDBMS:关系数据库管理系统​ 全部导入:#!/usr/bin/env bashsqoop import \--connect jdbc:mysql://bigd...
原创
发布博客 2019.09.16 ·
230 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Sqoop的原理与安装

Sqoop 简介:​ Apache Sqoop™ 是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。​ Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。​ 请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用于生产部署。Sqoop 原理:​ 将导入或导出命令翻译成 mapreduce 程序来实现...
原创
发布博客 2019.09.16 ·
252 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive的查询与函数

基本查询:算数运算符:运算符描述A+BA和B 相加A-BA减去BA*BA和B相乘A/BA除以BA%BA对B取余/模A&BA和B按位取与A|BA和B按位取或A^BA和B按位取异或~AA按位取反常用函数:​ 1、求行数(count):hive (jds)> select count(1) ...
原创
发布博客 2019.09.16 ·
451 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hive的数据类型与DML和DDL

Hive 数据类型:基本数据类型:Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE ...
原创
发布博客 2019.09.16 ·
205 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive的配置和一些案例

Hive 元数据配置到 MySql:​ 在 /opt/module/hive/lib/ 中添加 mysql-connector-java-5.1.27-bin.jar 包​ 在 /opt/module/hive/conf 目录下创建 hive-site.xml 并添加一下内容:​ vi hive-site.xml<?xml version="1.0"?><?xml-st...
原创
发布博客 2019.09.16 ·
242 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive原理与安装

原理:​ 由 Facebook 开发的开源的数据统计工具。​ 是基于 Hadoop 的一个数据仓库工具。​ 本质:将 HQL/SQL 转化成 MapReduce 程序​ 1)Hive 处理的数据存储在 HDFS​ 2)Hive 分析数据底层的实现是 MapReduce​ 3)执行程序运行在 Yarn 上Hive的优缺点:优点:​ 1)操作接口采用类 SQL 语法,提供...
原创
发布博客 2019.09.16 ·
160 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS-HA

HDFS HA 高可用概述:​ 1)所谓HA(high available),即高可用(7*24小时不中断服务)。​ 2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制:HDFS的HA和YARN的HA。​ 3)Hadoop2.0之前,在HDFS集群中NameNode存在单点故障(SPOF)。​ 4)NameNode主要在以下两个方面影响HDFS集群...
原创
发布博客 2019.06.26 ·
260 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Zookeeper实战

Zookeeper实战:分布式安装部署​ 0)集群规划​ 在bigdata111、bigdata112和bigdata113三个节点上部署Zookeeper。​ 1)解压安装​ (1)解压zookeeper安装包到/opt/module/目录下[itstar@bigdata111 software]$ tar -zxvf zookeeper-3.4.10.tar.gz -C...
原创
发布博客 2019.06.25 ·
367 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Zookeeper安装

Zookeeper安装:​ 下载地址:https://zookeeper.apache.org/部署:1)安装前准备:​ (1)安装jdk​ (2)上传zookeeper到linux系统下​ (3)修改tar包权限[itstar@bigdata111 software]$ chmod u+x zookeeper-3.4.10.tar.gz​ (4)解压到指定目录[itstar@...
原创
发布博客 2019.06.25 ·
629 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Zookeeper

Zookeeper:概述:​ Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。特点:​ 1)Zookeeper:一个领导者(leader),多个跟随者(follower)组成的集群。​ 2)Leader负责进行投...
原创
发布博客 2019.06.25 ·
139 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MR自定义输入输出

自定义InputFormat:1)需求​ 无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。将多个小文件合并成一个文件SequenceFile,SequenceFile里面存储着多个文件,存储的形式为文件路径+名称为key,文件内容为value。3)分析​ 小文件的优化无非以下几种方式:​ (1)在数据采集的时...
原创
发布博客 2019.06.25 ·
413 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Yarn工作机制

Yarn工作机制概述:​ Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。基本架构:​ YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。工作机制:解释:资源:在 YARN 的语...
原创
发布博客 2019.06.25 ·
416 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Map和Reduce多表合并

MapReduce中多表合并:合并选择:​ Map:使用于一个小表一个大表​ reduce:使用于同时为大表的情况Map端表合并:​ 优点:适用于关联表中有小表的情形;​ 可以将小表分发到所有的map节点,这样,map节点就可以在本地对自己所读到的大表数据进行合并并输出最终结果,可以大大提高合并操作的并发度,加快处理速度。代码实现:MapJoin.javapublic cl...
原创
发布博客 2019.06.25 ·
555 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Shuffle机制和压缩

Shuffle机制:Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程(即将map输出作为输入传给reducer)称为shuffle。Hadoop 数据压缩:概述:压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I...
原创
发布博客 2019.06.25 ·
456 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多