![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
爱吃酸梨
取经之路,就在脚下
展开
-
Hive 运行在 Tez 上
更换 Hive 默认的计算引擎 MR 改为 Tez, 提高 Hive 处理数据的速度原创 2020-03-14 16:31:15 · 356 阅读 · 0 评论 -
Linux 快捷操作集群脚本
Linux 快捷操作集群脚本,提高效率原创 2020-03-10 20:42:55 · 247 阅读 · 1 评论 -
【入门】 PySpark 学习
PySpark 入门学习,从 WordCount 开始!原创 2020-03-05 10:24:11 · 768 阅读 · 0 评论 -
Storm 流式处理
Storm 是个实时的、分布式以及具备高容错(协调 )的计算系统原创 2019-12-23 08:45:12 · 645 阅读 · 0 评论 -
elasticSearch 搜索服务
elasticSearch 搜索服务原创 2019-12-23 08:44:21 · 298 阅读 · 0 评论 -
Zookeeper 分布式协调
文章目录paxos 小岛的故事Zookeeper 简介Zookeeper 集群数据模型事件监听节点模式-原子广播总结Zookeeper 安装与配置Zookeeper 操作常用命令Zookeeper API 使用RMI 案例服务提供端服务消费端共有Socket 案例paxos 小岛的故事组成:议员: 管理小岛议员记事本: 记录处理的草案的编号,初始当前编号为 0。草案 (提议): 由单...原创 2019-12-22 22:10:06 · 210 阅读 · 0 评论 -
NoSQL 数据库之 HBase
文章目录HBase 简介Hadoop 生态系统HBase 数据模型HBase 架构HBase 架构图HBase 架构中各角色作用HBase 环境搭建HBase 伪分布式搭建HBase 完全分布式搭建HBase-APIDemo工具类HBase 微博案例需求ProtobufProtobuf 简介安装 Google Protocol Bufferprotobuf 的使用HBase 优化表设计写表操作读...原创 2019-11-07 16:47:09 · 331 阅读 · 1 评论 -
数据仓库之Hive
文章目录Hive 简介Hive 架构Hive 的架构OperatorHive 搭建模式单机模式移动到 /opt/sxt 目录下配置 hive 环境变量,编辑 vi /etc/profile 文件使 /etc/profile 生效输入 hive 命令,查看 hive 是否安装成功修改配置文件更新 jar 资源将 jline.jar 调整为高版本,同时将 hadoop 的低版本删除启动Hive 之...原创 2019-11-02 11:36:48 · 438 阅读 · 0 评论 -
大数据之HDFS
是什么为什么如何去使用HadoopHadoop简介:http://hadoop.apache.orgThe Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.The Apache Hadoop software library is a ...原创 2019-10-24 15:51:00 · 284 阅读 · 0 评论 -
大数据之MR
MapReduceMR 理论MapTask & ReduceTask一个切片对应一个 Map,也就是说切片的数量决定了 Map 的数量split 切片指逻辑上概念,用于指定 Map 处理数据的大小切片用于将 HDFS 中的块与 Map 之间解耦Reduce 的数量由人来决定,根据前面的组的推导MR 原语输入(格式化k,v)数据集 -> map映射成一个中间数据...原创 2019-10-24 15:49:25 · 3463 阅读 · 0 评论 -
大数据之Linux 基础
Linux 基础Linux 开始虚拟机 Linux 准备工作Linux 安装步骤选择稍后安装网络类型选择 NAT修改最大磁盘大小(这里最大磁盘大小指给虚拟机分配的,但不真正使用不是这么多)注意: Linux 版本根据自己的Linux 版本选择。列如:我这用的是 CentOS-6.5-x86_64-minimal.iso,所以选择 Linux 版本时选择时 Cen...原创 2019-10-10 09:07:14 · 1658 阅读 · 0 评论