自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 k8s在线安装-ARM版

如果不想安装kubesphere,那么把–with-kubesphere v3.4.1去掉即可。那么就修改/var/lib/kubelet/config.yaml的cgroupDriver为。说明k8s安装完了,开始安装kubesphere,这时候我们要新起一个ssh连接,使用。来观察实际安装情况,根据报错按需解决,如果有报错请可以参考我下面第五章解决的思路。本次部署是测试k8s在arm架构是否可行,所以使用一台机器部署,并没有规划。安装日志比较多,我只截取一部分,就是要关注的下载包是否是arm版的。

2023-12-24 11:57:15 583 1

原创 Flume的Source、Channel类型选择

好处:实时监控文件变化坏处:有丢数据的风险好处:可以实现断点续传坏处:不能实时监控文件变化好处:断点续传,可以实时监控文件变换数据存储在磁盘中 可靠性高 效率低数据存储在内存中,可靠性差,效率低数据存储在kafka中,存储在磁盘中,可靠性高,省去了kafka sink,传输效率也高(flume 1.6的时候诞生的,pares AsAflumeEvent=true ,设为flase不起作用,在1.7版本修复了bug)...

2022-07-01 15:06:16 225

原创 Flume报错:java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/

我在网上搜了很多,原因是jar包冲突,这点确实,他们的解决办法都是让把Hadoop的hadoop-3.1.3/share/hadoop/common/lib/guava-27.0-jre.jar拷贝到Flume的flume-1.9.0/lib中,并删除Flume自带的flume-1.9.0/lib/guava-11.0.2.jar,但是我这样操作后还是报上面的错误。后面我把Kafka的kafka_2.11-2.4.1/libs/guava-20.0.jar拷贝到Flume的flume-1.9.0/lib中,

2022-06-17 19:53:30 640

原创 Hbase

1)StoreFile保存实际数据的物理文件,StoreFile 以 HFile 的形式存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile(HFile),数据在每个 StoreFile 中都是有序的。2)MemStore写缓存,由于 HFile 中的数据要求是有序的,所以数据是先存储在 MemStore 中,排好序后,等到达刷写时机才会刷写到 HFile,每次刷写都会形成一个新的 HFile。3)Hlog/wal由于数据要经 MemStore 排序后才能刷写到 HFile

2022-06-14 00:16:19 355

原创 hive集群搭遇到的两个问题

正常实在tmp 目录的用户目录下,我们将其修改到/opt/module/hive/logs目录下操作如下:vim 该文件,修改dir地址监控日志使用 tail -f报错如下:解决:1、关闭hdfs集群2、在hadoop的配置文件core-site.xml增加如下配置,其中“xxx”是连接beeline的用户,将“xxx”替换成自己的用户名即可。可别直接复制啊,及得修改!!!3、重启hdfs集群...

2022-06-13 01:01:30 498

原创 Msyql优化

– 查看当前会话SQL执行类型的统计信息– 查看全局(自从上次MySQL服务器启动至今)执行类型的统计信息– 查看针对InnoDB引擎的统计– 查看慢日志配置信息– 开启慢日志查询– 查看慢日志记录SQL的最低阈值时间– SQL的执行时间>=10秒,则算慢查询– 例子select sleep(10);– 临时修改慢查询日志记录SQL的最低阈值时间二、 查询SQL动态执行状态– show proccesslist 查看客户端短连接服务器的线程执行状态信息三、explain分析执行计划

2022-06-10 20:43:19 74

原创 Kafka

一、概述> 1、定义> 1)传统定以> 生产者命令操作消费者命令行操作生产者生产经验生产经验——生产者如何提高吞吐量思考:ACK应答级别:-1Leader收到数据,所有Follower都开始同步数据,但有一个Follower,因为某种故障,迟迟不能与Leader进行同步,那这个问题怎么解决呢?数据完全可靠条件 = ACK级别设置为-1 + 分区副本大于等于2 + ISR里应答的最小副本数量大于等于2数据重复分析:PID是Kafka每次重启都会分配一个新的;

2022-06-07 18:31:07 385

原创 安装kafka的efak时web界面没有显示kafka集群信息( ERROR - Get broker jmx info from ids has error,msg is java.lang.)

明显看出集群正常启动但是登录web界面没有显示kafka集群信息,查了查日志。报错信息为仔细在网上找了找 ,发现加一个配置代码就行了,具体原理还没理解进入kafka/bin目录下,修改kafka-run-class.sh文件,在文件的首行增加然后重启所有的kafka节点再次重启kafka-eagle程序,最后发现可以监控到kafka信息。...

2022-06-07 18:07:29 1472

原创 spark连接mysql时出现The server time zone value ‘�й���׼ʱ��‘ is unrecognized or represents more than one ti

原因:是因为 mysql返回的时间总是有问题,比实际时间要早8小时解决方案: 在连接字符串后面加上?serverTimezone=UTC即可解决问题,如果需要使用gmt+8时区,需要写成GMT%2B8,否则可能报解析为空的错误jdbc:mysql://127.0.0.1:3306/test?useUnicode=true&characterEncoding=UTF-8&serverTimezone=UTC//这个是解决中文乱码输入问题useUnicode=true&char

2022-05-27 19:17:36 198

原创 Spark序列化和 RDD 依赖关系、持久化

Spark序列化1 闭包检查从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效果,如果使用的算子外的数据无法序列化,就意味着无法传值给 Executor端执行,就会发生错误,所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。Scala2.12 版本后闭包编译方式发生了改变//RDD算子中传递的函数是会包含

2022-05-24 17:26:57 214

原创 Spark算子

1.RDD方法=>RDD算子1).转换:功能的补充和封装,将旧的RDD包装成新的RDD(map,flatMap)2).行动:触发任务的调度和作业的执行(collect)3).RDD方法=>RDD算子:认知心理学认为解决问题其实将问题的状态进行改变:问题(初始)=》操作(算子)=》问题(审核中)=》操作(算子) =》问题(完成)2.RDD转换算子1) map(RDD_Operator_Transform) rdd =sc.makeRDD(List(1,2,3,4)) val ma

2022-05-24 00:08:38 541

原创 Flume事务理解

听完别人根据源码讲解的Flume事务,大概有了初步理解:1:putList1.1 Source读取外界数据,放到putList里面,然后doCommit 提交给Channel1.2 如果Channel拉取数据异常,将开启doRollback回滚,此时数据就会回到putList,但是putList会把这部分数据清空,所以此时可能会丢失数据,因为如果用netcat Source ,它不会记录位置信息,也就是它读取外界数据时读到哪了,它不知道,你只会继续往下进行;但是如果使用taildir Source

2022-05-20 14:46:18 290

原创 spark集群部署(避坑版)

本地模式:测试web页面独立部署模式(standlone):web页面

2022-05-18 17:37:03 795

原创 记录hadoop3.1.3搭建遇到的各种坑

一:准备三台虚拟机,配置同步1 创建模板机,关闭防火墙、静态IP、主机名称这里三台虚拟机使用4g4核50g内存,centos7,主机名为hadoop100,IP地址192.168.88.100,root密码为000000;修改主机名hostnamectl set-hostname hadoop100修改静态IPcd /etc/sysconfig/network-scripts/lsvi ifcfg-ens33然后重启测试 ping www.baidu.com安装epel-relea

2022-05-17 17:26:23 1286

原创 解决MySQL 5.8.x版本sql_mode=only_full_group_by问题,this is incompatible with sql_mode=only_full_group_by错误

项目场景:今天用DBeaver运行这个sql脚本出错脚本:use case1;select t1.author_id ,t1.live_id ,coalesce (sum(t2.watch_duration)/t1.live_duration,0) as acufrom t1left join t2 on (t1.live_id = t2.live_id)group by t1.author_id ,t1.live_id;问题描述:sql_mode=only_full_group_byE

2022-05-06 17:15:22 1069 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除