Hadoop
jiezou12138
这个作者很懒,什么都没留下…
展开
-
Hadoop生态圈(六):Hive(二)
目录5 DML操作5.1 数据导入5.1.1 向表中加载数据(load)5.1.2 通过查询语句向表中插入数据(Insert)5.1.3 查询语句中创建表并加载数据(As Select)5.1.4 创建表时通过location指定加载数据路径5.1.5 Import数据到指定Hive表中5.2 数据导出5.2.1 Insert导出5.2.2 Hadoop与...原创 2019-04-19 22:19:34 · 399 阅读 · 0 评论 -
Hadoop生态圈(六):Hive(一)
目录1 Hive基本概念1.1 什么是hive1.2 hive的特点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较2 Hive安装2.1 hive下载地址2.2 hive安装部署2.3 将本地文件导入Hive案例2.4 Mysql安装(root用户)2.4.1 安装包准备2.4.2 安装mysql服务器...原创 2019-04-18 23:32:51 · 969 阅读 · 0 评论 -
Hadoop生态圈(十一):Storm
目录1 Storm概述1.1 离线计算是什么?1.2 流式计算是什么?1.3 Storm是什么?1.4 Storm与Hadoop的区别1.5 Storm应用场景及行业案例1.5.1 运用场景1.5.2 典型案列2 Storm基础知识2.1 Storm编程模型2.2 Storm核心组件2.3 实时流计算常见框架图3 Storm集群搭建3.1 环...原创 2019-04-25 19:51:11 · 1064 阅读 · 0 评论 -
Hadoop生态圈(九):kafka
目录1Kafka概述1.1 消息队列1.2 为什么需要消息队列1.3 什么是Kafka1.4 Kafka架构2 Kafka集群部署2.1 环境准备2.1.1 集群规划2.1.2 下载2.2 Kafka集群部署2.3 Kafka命令行操作3 Kafka工作流程分析3.1 Kafka生产过程分析3.1.1 写入方式3.1.2 分区(Par...原创 2019-04-21 15:22:02 · 697 阅读 · 0 评论 -
Hadoop生态圈(五):Zookeeper
目录1 Zookeeper1.1 概述1.2 特点1.3 数据结构1.4 应用场景,1.5 下载地址2 zookeeper安装部署2.1 分布式安装部署2.2 配置参数解读3 Zookeeper内部原理3.1 选举机制3.2 节点类型3.3 监听原理3.5 写数据流程4 zookeeper实战4.1 客户端命令行操作4.2sta...原创 2019-04-16 17:29:58 · 396 阅读 · 0 评论 -
Hadoop生态圈(八):Flume
目录1 Flume概述1.1 Flume是什么1.2 Flume组成架构2 Flume安装2.1 下载2.2 安装部署3 案例 3.1 Flume实时读取目录文件到HDFS3.2 Flume实时读取本地文件新增内容到HDFS(常用)3.3单数据源多出口案例3.4 多数据源汇总1 Flume概述1.1 Flume是什么Flum...原创 2019-04-20 21:40:08 · 410 阅读 · 0 评论 -
Hadoop生态圈(七):Sqoop
目录1 Sqoop简介2 工作原理3 Sqoop安装3.1 下载解压3.2 修改配置文件3.3 拷贝JDBC驱动3.4 验证Sqoop3.5 验证sqoop是否能够连接上数据库4 Sqoop案例4.1 导入数据4.1.1 RDBMS到HDFS4.1.3 RDBMS到Hive4.2 导出数据4.2.1 Hive/HDFS到RDBMS(本质上都是...原创 2019-04-20 18:03:31 · 369 阅读 · 0 评论 -
Hadoop生态圈(二):HDFS
目录1 HDFS的概述1.1 HDFS的概念1.2 HDFS优缺点1.2.1优点1.2.2缺点1.3 HDFS的架构1.4 block文件块的大小2 HDFS的shell客户端操作3 HDFS的java客户端操作3.1 HDFS客户端操作4 HDFS的数据流4.1 HDFS写数据流程4.2 HDFS读数据流程5 NameNode和Seco...原创 2019-04-09 16:17:28 · 487 阅读 · 0 评论 -
hadoop生态圈(一):hadoop集群的搭建
目录1 hadoop概述1.1 hadoop是什么1.2 hadoop的组成1.2.1 hdfs架构概述1.2.2 YARN概述1.2.3 MapReduce架构概述1.3大数据生态体系1.4 推荐系统架构图2 Hadoop集群搭建2.1 虚拟机环境准备2.2 安装jdk和hadoop2.3 集群配置3 集群启动3.1 集群单点启动3...原创 2019-04-08 20:52:38 · 1822 阅读 · 0 评论 -
Hadoop生态圈(四):Yarn
目录1 Yarn1.1 Yarn概述1.2 Yarn基本结构1.3 Yarn工作机制1.4 资源调度器2 hadoop企业优化2.1MapReduce跑的慢的原因2.2 MapReduce优化方法2.2.1 数据输入2.2.2 Map阶段2.2.3 Reduce阶段2.2.4 数据倾斜问题3 常见错误及解决方案1 Yarn1.1 Ya...原创 2019-04-11 23:31:05 · 497 阅读 · 0 评论 -
Hadoop生态圈(三):MapReduce
目录1 MapReduce入门1.1 MapReduce定义1.2 MapReduce的优缺点1.3 MapReduce核心思想1.4 MapReduce进程(MR)1.5 MapReduce编程规范1.6 WordCount案例2 Hadoop序列化2.1 序列化概述2.1.1 什么是序列化2.1.2 为什么要序列化2.13 为什么不使用ja...原创 2019-04-10 23:44:17 · 493 阅读 · 0 评论 -
Hbase的架构及读写流程
Hbase: 是一个构建在Hdfs基础之上的非关系型数据库。** 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,目标是存储并计算大型的数据,具体来说就是在非常普通的硬件配置,就能够处理成千上万的行和列组成的大型数据。 关系型数据库和非关系型数库的明显区别:Nosql往往使用api操作,关系型数据习惯与使用sql语句操作特点: 1.海量存储 -...原创 2019-03-19 23:31:45 · 562 阅读 · 0 评论 -
Hadoop生态圈(十):Hbase
目录1 Hbase概述1.1 什么是Hbase1.2 Hbase特点1.3HBase架构1.4HBase中的角色1.4.1 HMaster1.4.2 RegionServer1.4.3 其他组件2 Hbase安装2.1 环境准备2.2 下载安装2.3 Hbase服务的启动2.4 查看Hbase的WEBUI界面3 Hbase Shell操作...原创 2019-04-25 16:04:19 · 828 阅读 · 0 评论