Hadoop大数据技术
文章平均质量分 65
大数据专栏,主要记录hdfs、hive、hbase、kafka、flume、yarn、jstorm等组件的学习和研究。
Andya_net
公众号:CodingTechWork
觉得为时已晚的时候,恰恰是最早的时候。
展开
-
Redis | Redis入门学习介绍及常见原理剖析
Redis是NoSQL,是key-value分布式内存数据库。原有缓存失效,新缓存未到期。缓存中采用相同过期时间,同一时刻出现大面积缓存过期,原本访问Redis缓存的请求都直接去查询数据库,对数据库cpu和内存造成巨大压力,严重时造成数据库宕机,从而形成一系列连锁反应,造成整个系统崩溃。与缓存击穿区别是,雪崩是很多key采用相同过期时间,同时多个key失效。击穿是某一个key缓存失效。原创 2023-12-10 17:21:30 · 279 阅读 · 0 评论 -
Flink—读Hive表数据写入Kafka
数仓Hive中的数据需要读取后写入Kafka中进行数据服务输出。原创 2022-08-26 16:01:10 · 1300 阅读 · 0 评论 -
Hive—内置date函数用法详解
引言 在hive中我们经常需要处理日期数据,hive内置了3个日期函数,其格式只能为yyyy-MM-dd格式或者yyyy-MM-dd HH:mm:ss'格式常用date函数日期比较函数:datediff语法datediff(string enddate,string startdate)说明:返回结束日期enddate减去开始日期startdate的天数返回值类型:int示例返回天数为正hive> select datediff('2022-01-02','2022-01-01'原创 2022-05-15 14:09:57 · 2329 阅读 · 0 评论 -
kafka—报错JAAS config entry not terminated by semi-colon信息
问题报错JAAS config entry not terminated by semi-colon信息,如图解决方案查看代码中properties.sasl.jaas.config的value值为org.apache.kafka.common.security.plain.PlainLoginModule required username=\"userA\" password=\"userA@123\"少了一个;英文分号。在代码中加入这个分号,再重试即可。...原创 2022-04-08 14:17:18 · 8172 阅读 · 2 评论 -
HIVE——常用sql命令总结
库创建库CREATE DATABASE IF NOT EXISTS db01;查看库SHOW DATABASES;使用库USE db01;删除库DROP DATABASE db01;表查看表SHOW TABLES;创建分区表CREATE TABLE IF NOT EXISTS tab_01 (colume01 string)partitioned by (colume02 string)row format delimitedfields terminated by原创 2022-04-08 09:06:48 · 8667 阅读 · 0 评论 -
Kafka—配置SASL/PLAIN认证客户端及常用操作命令
介绍 SASL/PLAIN 是一种简单的 username/password安全认证机制,本文主要总结服务端开启该认证后,命令行客户端进行配置的操作流程。配置增加jaas.properties在kafka的config目录下增加jaas.properties文件指定认证协议为SASL_PLAINTEXTsecurity.protocol=SASL_PLAINTEXTsasl.mechanism=PLAIN增加kafka_client_jaas.conf配置客户端JAAS文件,在kafka原创 2022-04-07 09:38:05 · 6572 阅读 · 0 评论 -
Hadoop—数据仓库分层介绍
数据仓库介绍概念1)DW, data warehouse,数据仓库,也称为数仓。2)数仓,就是存储数据的一个仓库。数据分层1)数据服务层:ADS, Application Data Service2)数据仓库层:DW, Data Warehouse,包含DWD,DWB,DWS3)数据运营层:ODS, Operational Data Store优点1)明确数据分层结构:使用分层机制,每层权责分明,使用表时便于定位排查,便于血缘追踪。同时,通过分层,将复杂任务拆解多个步骤处理,便于维护数据准确.原创 2022-02-19 17:52:19 · 2412 阅读 · 0 评论 -
Hadoop—如何查看HDFS默认的ns命名空间和所有命名空间列表
问题如何查看hdfs的默认命名空间是哪个?方案1)通过查询core-site.xml中的fs.defaultFS配置值。2)shell命令hdfs getconf -confKey fs.default.name原创 2021-08-20 17:32:44 · 1938 阅读 · 0 评论 -
Zookeeper——入门介绍(相关原理、安装启动及使用操作)
关注微信公众号:CodingTechWork,一起学习进步。引言 对zk的学习和简单实用进行一个总结。zk介绍zk概述zk是一个具有高可用性的高性能协调服务。zk的watcher对象有两个作用:一方面是用于获得zk状态变化的通知;另一方面是用于获得znode变化的相关通知。zk特点zk是简单的,核心是一个精简的文件系统,提供诸如排序和通知等简单的操作和额外的抽象操作。zk是富有表现力的,zk的基本操作是一组丰富的构件,可用于实现多种协调数据结构和协议,如分布式队列、分布式锁和一组.原创 2021-05-04 11:43:06 · 720 阅读 · 0 评论 -
Hadoop—LDAP介绍和使用
LDAP介绍LDAP概述 LDAP是轻量目录访问协议,(LDAP, Lightweight Directory Access Protocol)LDAP是用于访问目录服务(特别是基于X.500的目录服务),LDAP在TCP/IP或其他面向连接的传输服务上运行。LDAP是IETF标准的跟踪协议。 LDAP是目录非关系型的,不存储BLOB,读写是非对称的,读方便,写麻烦,适合于查询搜索。LD...原创 2020-04-20 14:05:16 · 2576 阅读 · 0 评论 -
Kafka—topic的查询和创建
记录常用的kafka常用的topic相关命令查看topic列表[root@shtest01 ~]# /usr/lib/kafka/bin/./kafka-topics.sh --list --zookeeper localhost:2181/kafka创建topic[root@shtest01 ~]# /usr/lib/kafka/bin/./kafka-topics.sh --crea...原创 2020-03-26 15:27:23 · 1058 阅读 · 0 评论 -
JStorm—实时流式计算框架入门介绍
JStorm介绍 JStorm是参考storm基于Java语言重写的实时流式计算系统框架,做了很多改进。如解决了之前的Storm nimbus节点的单点问题。 JStorm类似于Hadoop MapReduce系统,用户按照指定的接口去实现一个任务,任务提交给JStorm进行运行,且这种运行是不间断的,因为如果期间有worker发生故障,调度器会分配一个新的worker去替换这个故障wor...原创 2020-03-20 16:27:18 · 732 阅读 · 0 评论