澜的大数据-CSDN博客

原创大数据面试题记录

默认保存3份1）序列化和反序列化（1）序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。（2）反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。（3）Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），精简、高效。

2025-12-10 17:25:54 555

原创 k8s在线安装-ARM版

如果不想安装kubesphere，那么把–with-kubesphere v3.4.1去掉即可。那么就修改/var/lib/kubelet/config.yaml的cgroupDriver为。说明k8s安装完了，开始安装kubesphere，这时候我们要新起一个ssh连接，使用。来观察实际安装情况，根据报错按需解决，如果有报错请可以参考我下面第五章解决的思路。本次部署是测试k8s在arm架构是否可行，所以使用一台机器部署，并没有规划。安装日志比较多，我只截取一部分，就是要关注的下载包是否是arm版的。

2023-12-24 11:57:15 1399 1

原创 Flume的Source、Channel类型选择

好处：实时监控文件变化坏处：有丢数据的风险好处：可以实现断点续传坏处：不能实时监控文件变化好处：断点续传，可以实时监控文件变换数据存储在磁盘中可靠性高效率低数据存储在内存中，可靠性差，效率低数据存储在kafka中，存储在磁盘中，可靠性高，省去了kafka sink，传输效率也高（flume 1.6的时候诞生的，pares AsAflumeEvent=true ,设为flase不起作用，在1.7版本修复了bug）...

2022-07-01 15:06:16 299

原创 Flume报错：java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/

我在网上搜了很多，原因是jar包冲突，这点确实，他们的解决办法都是让把Hadoop的hadoop-3.1.3/share/hadoop/common/lib/guava-27.0-jre.jar拷贝到Flume的flume-1.9.0/lib中，并删除Flume自带的flume-1.9.0/lib/guava-11.0.2.jar，但是我这样操作后还是报上面的错误。后面我把Kafka的kafka_2.11-2.4.1/libs/guava-20.0.jar拷贝到Flume的flume-1.9.0/lib中，

2022-06-17 19:53:30 737

原创 Hbase

1）StoreFile保存实际数据的物理文件，StoreFile 以 HFile 的形式存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile（HFile），数据在每个 StoreFile 中都是有序的。2）MemStore写缓存，由于 HFile 中的数据要求是有序的，所以数据是先存储在 MemStore 中，排好序后，等到达刷写时机才会刷写到 HFile，每次刷写都会形成一个新的 HFile。3）Hlog/wal由于数据要经 MemStore 排序后才能刷写到 HFile

2022-06-14 00:16:19 436

原创 hive集群搭遇到的两个问题

正常实在tmp 目录的用户目录下，我们将其修改到/opt/module/hive/logs目录下操作如下：vim 该文件，修改dir地址监控日志使用 tail -f报错如下：解决：1、关闭hdfs集群2、在hadoop的配置文件core-site.xml增加如下配置，其中“xxx”是连接beeline的用户，将“xxx”替换成自己的用户名即可。可别直接复制啊，及得修改！！！3、重启hdfs集群...

2022-06-13 01:01:30 577

原创 Msyql优化

– 查看当前会话SQL执行类型的统计信息– 查看全局（自从上次MySQL服务器启动至今）执行类型的统计信息– 查看针对InnoDB引擎的统计– 查看慢日志配置信息– 开启慢日志查询– 查看慢日志记录SQL的最低阈值时间– SQL的执行时间>=10秒，则算慢查询– 例子select sleep(10);– 临时修改慢查询日志记录SQL的最低阈值时间二、查询SQL动态执行状态– show proccesslist 查看客户端短连接服务器的线程执行状态信息三、explain分析执行计划

2022-06-10 20:43:19 132

原创 Kafka

一、概述> 1、定义> 1）传统定以> 生产者命令操作消费者命令行操作生产者生产经验生产经验——生产者如何提高吞吐量思考：ACK应答级别：-1Leader收到数据，所有Follower都开始同步数据，但有一个Follower，因为某种故障，迟迟不能与Leader进行同步，那这个问题怎么解决呢？数据完全可靠条件 = ACK级别设置为-1 + 分区副本大于等于2 + ISR里应答的最小副本数量大于等于2数据重复分析：PID是Kafka每次重启都会分配一个新的；

2022-06-07 18:31:07 514

原创安装kafka的efak时web界面没有显示kafka集群信息( ERROR - Get broker jmx info from ids has error,msg is java.lang.)

明显看出集群正常启动但是登录web界面没有显示kafka集群信息，查了查日志。报错信息为仔细在网上找了找，发现加一个配置代码就行了，具体原理还没理解进入kafka/bin目录下，修改kafka-run-class.sh文件，在文件的首行增加然后重启所有的kafka节点再次重启kafka-eagle程序，最后发现可以监控到kafka信息。...

2022-06-07 18:07:29 1698

原创 spark连接mysql时出现The server time zone value ‘�й��׼ʱ��‘ is unrecognized or represents more than one ti

原因：是因为 mysql返回的时间总是有问题，比实际时间要早8小时解决方案：在连接字符串后面加上?serverTimezone=UTC即可解决问题，如果需要使用gmt+8时区，需要写成GMT%2B8，否则可能报解析为空的错误jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=UTF-8&serverTimezone=UTC//这个是解决中文乱码输入问题useUnicode=true&char

2022-05-27 19:17:36 247

原创 Spark序列化和 RDD 依赖关系、持久化

Spark序列化1 闭包检查从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。Scala2.12 版本后闭包编译方式发生了改变//RDD算子中传递的函数是会包含

2022-05-24 17:26:57 306

原创 Spark算子

1.RDD方法=>RDD算子1).转换：功能的补充和封装，将旧的RDD包装成新的RDD（map,flatMap）2).行动：触发任务的调度和作业的执行(collect)3).RDD方法=>RDD算子：认知心理学认为解决问题其实将问题的状态进行改变：问题（初始）=》操作（算子）=》问题（审核中）=》操作（算子） =》问题（完成）2.RDD转换算子1) map（RDD_Operator_Transform） rdd =sc.makeRDD(List(1,2,3,4)) val ma

2022-05-24 00:08:38 608

原创 Flume事务理解

听完别人根据源码讲解的Flume事务，大概有了初步理解：1:putList1.1 Source读取外界数据，放到putList里面，然后doCommit 提交给Channel1.2 如果Channel拉取数据异常，将开启doRollback回滚，此时数据就会回到putList，但是putList会把这部分数据清空，所以此时可能会丢失数据，因为如果用netcat Source ，它不会记录位置信息，也就是它读取外界数据时读到哪了，它不知道，你只会继续往下进行；但是如果使用taildir Source

2022-05-20 14:46:18 359

qq_52868288的博客