![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 78
娄继涛
生有涯,知无涯;
展开
-
hive处理集市层实时统计需求思路
一、背景 CDC工具 + flink目前可以做到数据实时入hive,所以很多需求可能也需要实时性要求,非毫秒级的。可能就是半个小时统计、一个小时统计这样的指标,但是数据要求实时。 这类需求没用flink或者spark去处理,要用hive来做。 二、思路阐述 图中表的简要说明: 1)SRC_T1,这个是一张5分钟的实时表,通过flink程序实时采集数据进hive中; 2)TMP1,这个是无分区的hive表,用来保留近实时历史全量数据; 3) TMP2,这个是定时任务用到的临时表。处理数据先写原创 2021-09-08 11:18:01 · 490 阅读 · 0 评论 -
2021大数据学习路线(基于自身技术栈)
一、Linux 1)常用命令(文件查看编辑、用户权限操作、服务器资源操作、进程端口查看等); 2)高级工具命令: rpm、yum、awk、ssh免密、grep、crontab等; 3)常用组件的安装(虚拟机克隆、NAT/桥接等网络配置原理、jdk安装、MySQL安装、时间同步服务等) 4)shell脚本编程(/bin/bash) 二、zookeeper 1)安装部署 2)node类型,数据存储 3)paxos算法、zab原理,集群脑裂 4)监听器原理,选举机制和具体过程,写数据流...原创 2021-02-03 17:56:19 · 3428 阅读 · 0 评论 -
Hadoop学习笔记(1)——单机版搭建
Hadoop是一个分布式计算框架,适用于离线的海量信息批处理,大文件日志分析等,可以在大量廉价硬件设备组成的集群上运行应用程序,并未应用程序提供一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。Hadoop的核心是HDFS(Hadoop Distributed File System),Mapreduce和Hbase,他们分别是Google云计算核心技术GFS,Mapreduc...原创 2018-09-18 22:32:55 · 951 阅读 · 0 评论 -
Hadoop学习笔记(二)——四节点搭建Hadoop HA(高可用)集群模式
准备工作: 四个节点间的ssh互通,(至少两个NN节点和其他节点ssh互通); JDK 1.7+,环境变量配置,各节点保持一致; /etc/hosts 节点名映射,各节点保持一致; 保证各组件版本间兼容性,推荐使用cdh的jar包 datas : 当做所有软件的安装目录 jars:当做提交jar包的目录。 文本数据目录; software:软件包目录 workdata:...原创 2018-11-10 16:55:26 · 813 阅读 · 1 评论 -
基于Hadoop-HA上的Hbase完全分布式搭建
Hadoop-HA是基于之前版本搭建好的。 参考的文档:http://hbase.apache.org/book.html#quickstart hbase-site.xml配置 我的node1是hdfs的active节点。 Regionservers的节点是后面三个 直接启动,用jps命令去各个节点检测,是否符合Excel列表里面设置的那样...原创 2018-12-10 22:04:23 · 474 阅读 · 0 评论