![](https://img-blog.csdnimg.cn/da88fc4077a54afaad8e5d74c2456a6b.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据知识
文章平均质量分 81
大数据各个组件知识记录
承缘丶
学无止境……,共同学习进步
展开
-
Apache Tika介绍及简单使用
Apache Tika介绍及简单使用转载 2024-07-04 19:30:00 · 63 阅读 · 0 评论 -
HetuEngine简介
近期用到了Hetu,了解下这个工具是起什么作用的。原创 2024-07-03 20:12:55 · 290 阅读 · 0 评论 -
Spark Streaming简介与代码实例
为了更好理解流式计算思想,我们来举例一个更具体的流式计算的程序。原创 2024-01-03 08:30:00 · 2006 阅读 · 0 评论 -
通过MySQL删除Hive元数据信息
之前遇到过一个问题,在进行Hive的元数据采集时,因为Hive表的文件已经被删除了,当时是无法删除表,导致元数据采集也发生了问题,所以希望通过删除Hive表的元数据解决上述问题。之前安装时,经过特定的配置后,Hive上所有元数据均保存在Mysql中,所以可以从Mysql上删除表相关信息即可删除hive表,而且不会影响Hdfs上数据。6、验证表hive中表是否还存在,即是否删除成功。2、备份Hive的元数据库;3、删除备份表的外键信息;5、将删除的外键添加。原创 2023-08-03 15:02:38 · 1222 阅读 · 0 评论 -
Yarn WebUI使用各指标详解
Yarn WebUI使用各指标详解转载 2023-06-13 11:31:36 · 978 阅读 · 0 评论 -
Spark SQL与Hive SQL解析执行流程
Spark SQL与Hive SQL解析执行流程记录转载 2022-10-07 15:25:48 · 1321 阅读 · 0 评论 -
ELK简介
ELK是三个开源软件的缩写,分别是Elasticsearch、Logstash、Kibana,后来又新加了一个FileBeat原创 2022-09-05 22:44:53 · 4557 阅读 · 0 评论 -
Kettle“Hive输出”组件创建临时表报错“SchemaParseException”
returncode1fromorg.apache.hadoop.hive.ql.exec.DDLTask.org.apache.avro.SchemaParseException原创 2022-07-24 11:36:51 · 518 阅读 · 0 评论 -
ES知识记录
ES知识记录原创 2022-05-04 13:57:19 · 1642 阅读 · 0 评论 -
Kafka知识记录
kafka知识记录原创 2022-04-28 22:11:12 · 2161 阅读 · 0 评论 -
Zookeeper知识记录
目录数据存储历史背景:数据存储的方式:全量备份raid1:数据切片raid0:数据冗余raid5:数据一致性:强一致性:弱一致性:顺序一致性:最终一致性:子分类-因果一致性:子分类-“读己之所写”一致性:子分类-会话一致性:子分类-单调一致性:子分类-单调写一致性:CAP原则:Paxos原理:有主模型:无主模型:Zookeeper的角色分配:Follower:Observer:提议(Proposal)--ZNode原创 2022-04-04 17:42:20 · 1219 阅读 · 0 评论 -
Redis知识记录
目录缓存的概念:缓存击穿:解决方案:缓存雪崩:解决方案:缓存穿透:解决方案:缓存一致性:原因:解决方案:Redis:简介:LRU:支持的数据类型:Redis常见场景:Redis字符串操作命令:操作Key:操作String:操作hash:操作list:操作set:操作Sorted set:操作namespace:操作失效时间:删除指定类型数据的值:LRU算法动态删除不用的数据:Redis的事务机...原创 2022-03-31 20:33:32 · 616 阅读 · 0 评论 -
MapReduce知识记录
目录MapReduce设计理念:MapReduce的计算流程:数据块Block:切片Split:MapTask:环形数据缓冲区,KvBuffer:分区Partation:排序Sort:溢写Spill:合并Merge:组合器Combiner:拉取Fetch:合并Merge:归并Reduce:写出到Output:MapReduce的架构特点:MapReduce1.X:Client:JobTracker:TaskTracker:S原创 2022-02-05 16:29:13 · 1536 阅读 · 0 评论 -
Hadoop知识记录
目录概念:Block的拆分标准:数据块Block介绍:拆分的数据块需要等大:HDFS存储注意事项:Block数据安全:NameNode:DataNode:汇报:日志机制:拍摄快照:SNN的解决方案:安全模式:机架感知:第一个节点:第二个节点:第三个节点:第N个节点:HDFS写流程(宏观):HDFS写流程(微观):HDFS读流程:HA:Active NameNode(ANN):工作:存储介质:Stand..原创 2022-02-02 17:05:39 · 1818 阅读 · 0 评论 -
Hive:order by,sort by,distribute by与cluster by
Hive:order by,sort by,distribute by与cluster by转载 2022-01-07 19:01:10 · 387 阅读 · 0 评论 -
Hive Lateral View
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView原创 2022-01-07 12:10:56 · 1441 阅读 · 0 评论 -
算法复杂度简介以及排序算法简介
算法复杂度简介以及排序算法简介,笔记原创 2021-12-27 17:49:07 · 1512 阅读 · 0 评论 -
Hive表多张日志表跑select insert合并为一张表
Hive表多张日志表跑select insert合并为一张表原创 2021-12-11 08:13:52 · 2282 阅读 · 0 评论 -
记一次安装开源kafka_2.12-2.8.0 + SCRAM-SHA-256 认证
解决Authentication failed during authentication due to invalid credentials with SASL mechanism SCRAM-SHA-256...问题原创 2021-12-02 19:35:00 · 3626 阅读 · 3 评论 -
Hive表结构备份以及Hive数据统计
目录Hive备份:1.main脚本:2.目录结构:3.设置crontab:数据统计:1.初处理备份文本:2.1ETL处理第一步的文件:文本文件输入:Excel输出:2.2附:统计Mysql表信息:3.根据具体需求使用Excel做vlookup:Hive备份:1.main脚本:#!/bin/bash#生成昨天的日期,用作备份的文件名YMD=`date -d yesterday +%Y%m%d`#日志存储地址log_dir=/home/原创 2021-10-20 11:05:52 · 691 阅读 · 0 评论 -
Hive常用语句、函数记录(不定时更新添加)
unix_timestamp:返回当前或指定时间的时间戳。from_unixtime:将时间戳转为日期格式。dayofmonth:当前时间是一个月中的第几天。months_between: 两个日期间的月份。map_values: 返回map中的value。sort_array: 将array中的元素排序。map_keys: 返回map中的key。last_day:日期的当月的最后一天。add_months:日期加减月。date_add:日期加天数。date_sub:日期减天数。ceil: 向上取整。原创 2021-09-08 17:19:38 · 155 阅读 · 0 评论 -
HiveSQL执行计划详解
转载专用: 读到了好文章,用于分享收藏,侵权删。 转发自大佬:五分钟学大数据,https://yuanmore.blog.csdn.net/版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/helloHbulie/article/details/118656150目录一、查看SQL的执行计划1. explain 的用法3. explain 的使用场.转载 2021-08-31 15:47:53 · 283 阅读 · 0 评论 -
Hive数据误删除,一定条件下数据还原
误删除Hive表数据处理方法:例如我有一个表,表名为:biao_ceshi,表的所属库是jwy_sdm,表的分区是etl_rkrq,我误删除了,如果时间来得及的话(一般自动清理回收站的时间是集群配置的,6小时等),恢复方法:1、在Hdfs里面找删除过的数据文件(这个是华为的FI-Hive环境,其他可能略有不同): hadoop fs -ls /user/ hadoop fs -ls /user/ Hive用户名/.Trash hadoop ...原创 2021-08-23 13:54:55 · 613 阅读 · 0 评论 -
Hive表类型(存储格式)
转载专用: 读到了好文章,用于分享收藏,侵权删。 转发自大佬:桥路丶 ,https://blog.csdn.net/qq_33876553 版权声明:本文为CSDN博主「桥路丶」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/qq_33876553/article/details/112215854Hive表类型行式存储Hive支持的.转载 2021-08-23 13:30:48 · 153 阅读 · 0 评论 -
Hive性能优化
转载专用: 读到了好文章,用于分享收藏,侵权删。 转发自大佬:五分钟学大数据,https://yuanmore.blog.csdn.net/版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/helloHbulie/article/details/115659156目录一、Hive性能问题排查方式二、Hive性能调优的方式1. SQL语句优化un.转载 2021-07-16 17:38:13 · 1202 阅读 · 0 评论 -
Hive数据倾斜解决方案
转载专用: 读到了好文章,用于分享收藏,侵权删。 转发自大佬:五分钟学大数据,https://yuanmore.blog.csdn.net/ 版权声明:本文为CSDN博主「五分钟学大数据」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/helloHbulie/article/details/116117518数据倾斜问题剖析数据倾斜是分布式系.转载 2021-07-14 21:34:20 · 182 阅读 · 0 评论