大数据
文章平均质量分 58
中英汉语词典
这个作者很懒,什么都没留下…
展开
-
Mysql
在数据之外,数据库系统还维护着满足特定查找算法的数据结构,包括B+树或者Hash表。由于存储引擎表示的是数据在磁盘上面的不同的组织形式,所以索引底层采用哪种数据结构是跟数据库的存储引擎相关的。如果是MyIsam或者是InnoDB存储引擎,那么对应的底层的数据结构为B+树,如果是Memory存储引擎,那么对应的底层的数据结构为Hash表。事务是访问并更新数据库中各项数据项的一个程序执行单元.在事务中操作,要么都做修改,要么都不做.转载 2022-08-21 20:42:36 · 476 阅读 · 0 评论 -
Spark -八股
要讨论Spark三种不同的提交流程,首先要明确Spark最基本的运行架构。原创 2022-08-18 09:19:53 · 850 阅读 · 0 评论 -
解决实际业务中出现的数据倾斜
Spark 数据倾斜UDAF原创 2022-08-16 20:07:34 · 94 阅读 · 0 评论 -
从数据存储结构优化Spark SQL性能
HDFS存储Parquet存储ORC存储压缩算法导致的OOM原创 2022-08-15 20:59:43 · 341 阅读 · 0 评论 -
Flume
Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume在删除自己缓存的数据。![在这里插入图片描述](https。...............原创 2022-07-21 22:29:45 · 223 阅读 · 0 评论 -
实时数仓-涉及维度退化的事实表
[关键字]:Flink SQL、Flink 双流Join、Flink 动态表与持续查询、宽表、维度退化原创 2022-06-07 21:11:29 · 577 阅读 · 0 评论 -
本地运行Flink-DIMAPP出现问题
问题提炼:在本地运行Flink读取云服务器Kafka中的topic显示Timeout of 60000ms expired before the position for partition topic_db-0 could be determined日志级别通过将设置lof4j中rootLogger=info,error,stdout更详细的发现问题所在 虽然在本地程序中显式的指定了kafka所在服务器的外网地址,但是在通过zookeeper寻找leader的时候还是默认使用了本地设置的ha原创 2022-05-25 22:47:59 · 566 阅读 · 0 评论 -
Linux集群端口被占用|Flink识别不出HDFS路径
Linux 端口被占用问题:Hadoop集群端口被占用导致无法启动NameNode和DataNode解决办法:查看端口占用情况netstat -anp |grep 8888 //查看8888端口的占用情况 上图即端口8888被进程4110所占用kill掉占用的进程Flink识别不出HDFS路径问题:Hadoop is not in the classpath/dependencies.解决办法需要将flink-shaded-hadoop-3-uber-3.1.1.7.原创 2022-05-19 17:04:47 · 430 阅读 · 0 评论 -
云服务器搭建大数据集群-外网访问WEBUI问题|Kafka-Eagle WEBUI问题
外网访问云服务器Hadoop集群的WebUI外网访问云服务器Kafka-Eagle的WebUI原创 2022-05-04 16:14:28 · 978 阅读 · 0 评论