- 博客(14)
- 收藏
- 关注
原创 Spark简介
Spark是一个集成离线计算,实时计算,SQL查询,机器学习,图计算为一体的通用的基于内存的并行计算框架。弹性分布式数据集。特点:不可变,可分区,里面的元素可以并行计算的集合。不能携带数据,携带的是元数据信息。RDD的弹性。
2023-05-09 09:34:42 1633 1
原创 Linux安装miniconda3
Miniconda安装完成后,每次打开终端都会激活其默认的base环境,我们可通过以下命令,禁止激活默认base环境。(1)将Miniconda3-latest-Linux-x86_64.sh上传到/opt/software/路径。(3)一直按回车键,直到出现Please answer 'yes' or 'no':'(4)指定安装路径(根据用户需求指定):/opt/module/miniconda3。(2)执行以下命令进行安装,并按照提示操作,直到安装完成。-i的作用是指定镜像,这里选择国内镜像(豆瓣)
2023-04-26 16:50:05 8976 3
原创 kafka如何保证数据不丢失?
1或者all:生产者生产数据,既要保证leader保存成功,也要保证follower同步成功,继续发送下一批数据.同步模式:生产者生产一条数据,就保存一条数据,保存成功后,再生产下一条数据,能够保证数据不丢失,但是效率太低了。1:生产者生产数据,只保证leader保存成功,不管follower是否同步成功,继续发送下一批数据.0:生产者生产数据,不管leader是否保存成功,follower是否同步成功,继续发送下一批数据。生产者生产数据有两种模式:一种是同步模式,一种是异步模式。手动提交offset。
2023-04-21 15:02:49 2569 2
原创 MySQL中 delete,truncate,drop的区别
在 MySQL 中,使用 truncate、delete 和 drop 都可以实现表删除,但它们 3 个的使用场景和执行效果完全不同,接下来我们来看一下。
2023-04-18 16:26:02 972
原创 如何复用他人已经配好的虚拟机
查看进程是否有没有停止的软件 : 特别是hadoop , 如果没有停止会导致。至此 复用他人虚拟机的操作就结束了。第二步:更改ip和默认网关。ip地址: 192.168。NameNode损坏。
2023-04-17 11:00:46 1329
原创 启动Phoenix执行./sqline.py一直卡着没反应
在启动phoenix时,执行./sqline.py一直卡着没有反应可能是的meta信息不一致导致。
2023-04-12 13:20:48 2415 1
原创 启动zookeeper和kafka时 kafka无法启动或者闪退
kafka无法启动或者kafka启动以后 kafka进程自动挂掉查看kafka日志位置 server.properties 我的路径是/opt/module/kafka/config/server.properties)第59行就是kafka日志的默认位置datas下的文件全部删除查看zookeeper日志位置 我的路径是/opt/module/zookeeper/conf/zoo.cfg第12行就是zookeeper的默认日志位置删除zkData下的所有文件。
2023-04-11 15:27:06 6656 9
原创 HDFS总结
客户端拿到数据存放节点位置信息后,会和对应的DataNode节点进行直接交互,进行数据写入,由于数据块具有副本replication,在数据写入时采用的方式是先写第一个副本,写完后再从第一个副本的节点将数据拷贝到其它节点,依次类推,直到所有副本都写完了,才算数据成功写入到HDFS上,副本写入采用的是串行,每个副本写的过程中都会逐级向上反馈写进度,以保证实时知道副本的写入情况;:保存整个文件系统的目录信息、文件信息及分块信息,这是由唯一一台主机专门保存,当然这台主机如果出错,NameNode就失效了。
2023-04-10 18:56:03 2486 2
原创 Hadoop启动后没有datenode进程的解决办法
网上的说法大多数都是由于进行hadoop格式化的时候没有事先结束所有进程,或者多次进行了format导致的datanode的clusterID 和 namenode的clusterID不匹配,从而在启动后没有datanode进程。
2023-04-09 20:38:48 5424 2
原创 FlinkCDC自定义反序列化器
StartupOptions:initial:第一次启动时 读取原表已有的历史数据, 操作类型为READ, 之后不断做检查点存储第二次启动时 一定要指明检查点文件的具体位置, 这样就可以断点续传; 即使Flink宕机了, 重启后是从上次offset开始读, 而不是latest检查点在打包部署后才有用, 因为那样才可以指明检查点的具体位置earliest:从BinLog第一行数据开始读, 最好先给这个数据库加上BinLog后, 再去读取创建数据库latest : 读取最新变更数据,
2023-04-07 21:03:07 661 4
原创 Hbase简介
hbase的特点 hbase架构各个角色的功能 MemStore 刷盘 HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统
2023-04-06 10:10:30 2263 6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人