- 博客(31)
- 收藏
- 关注
原创 从gitee下载hadoop-3.3.0-winutils
安装一个git,git上配置用户名,邮箱 ->用户名就是gitee账户,邮箱就是gitee关联的邮箱。1、进入gitee官网https://gitee.com/2、搜索hadoop-3.3.0-winutils。若需要设置代理,无账户密码认证。
2024-10-11 13:06:30 450
原创 iceberg 遇到的问题
writetadata.previous-versions-max=2 # 保留历史数据最大为2,加上最新数据,一共3个。通过org.apache.iceberg.actions.RewriteDataFiles来实现表的数据文件的合并,writetadata.delete-after-commit.enabled=true # 删除历史数据。
2024-05-09 11:16:26 269
原创 虚拟机ping不通
隔了一段时间,想复习下以前学的知识,需要用到虚拟机,于是乎,开启虚拟机,主机死活ping不通虚拟机,去网上搜索,检查发现虚拟机防火墙是关闭的,网卡开启的,网段也是和虚拟机配置的同一网段,主机的vmnet8也是开启的,网段也是对的。可能是虚拟机坏了吧,重新搭建一个虚拟机,我艹,还是不行,继续查资料,查资料,最后想着是不是主机的ip和虚拟机冲突了,看了下,没冲突啊,算了,改下vm上的网段吧(包括虚拟机,主机),没想到,这一改,可以了。后面想着,不对,肯定有哪出问题了,然后。
2024-03-10 14:04:11 433
原创 spark standalone HA
再启动zk (所有节点) zookeeper-3.4.6/bin/zkServer.sh start。然后启动spark (node1) spark/sbin/start-all.sh。最后启动备份节点(node2)spark/sbin/start-master.sh。先启动hdfs (node1) start-dfs.sh。配置前提:hdfs、zk、spark 可用。
2023-11-03 11:26:15 54
原创 spark standalone模式
log4j.rootCategory=info 改为 log4j.rootCategory=warn。核心:spark集群加hdfs。# 启动日志 (18080)
2023-10-30 15:33:26 70
原创 presto 内存配置
2) 对于 memory.heap-headroom-per-node 第三方库的内存配置 : 建议 jvm内存的 15%左右, 默认为30%3) 在配置的时候, 不要正正好后, 建议预留一点点, 以免出现问题,建议预留 5%~10%4) 用户内存和系统内存之间比较, 一般是以 8/2原则或者 7/3原则。1) 各个节点 JVM内存推荐大小: 当前节点剩余内存 80%
2023-10-28 11:58:03 170
原创 presto 时间函数
比如 数据字段类型为date类型,那么在基于这个字段进行过滤的时候, 编写的过滤条件上值必须也是date类型。在presto中, 对于数据类型要求比较严格,
2023-10-28 11:42:48 1052
原创 python jieba分词
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba
2023-10-20 20:12:29 57 1
原创 spark on yarn 环境配置
当Spark Application应用提交运行在YARN上时,默认情况下,每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中,为了节省提交时间和存储空间,将Spark相关jar包上传到HDFS目录中,设置属性告知Spark Application应用。-- 设置聚合日志在hdfs上的保存时间 -->-- 设置yarn集群的内存分配方案 -->-- 设置yarn历史服务器地址 -->-- 配置yarn主节点的位置 -->-- 关闭yarn内存检查 -->-- 开启日志聚合功能 -->
2023-10-20 18:30:23 368 1
原创 rdd算子
reparation 是coalesce的一种当参数2为True一种简写coalesce 默认只能进行减少分区, 如果要增大分区, 需要将参数2设置为True, 一旦设置为True就会产生shuffle区别:1) 两个算子都是用于重分区的算子, 一个能增大也能减少, 而coalesce默认只能减少分区2) reparation默认会产生shuffle 而coalesce默认没有shuffle3) reparation 是coalesce的一种当参数2为True一种简写。
2023-10-20 18:29:54 109 1
原创 运行spark报JAVA_HOME is not set
2、找不到java环境,可能是配置了多个python 环境导致,【经检查/etc/profile有配置JAVA_HOME,可能因为优先级没访问到】,在~/.bashrc里面配置就ok了,【我初始化anaconda 是配置在bashrc的,使用的是anaconda的python解释器】1、运行spark程序时,部分python代码需要py4j转换为java代码,而远端设备找不到java环境。2、 需要在代码中添加以下内容,用于锁定远程版本 (放置在mian函数的上面)
2023-10-19 19:41:30 514 1
原创 pycharm 连接远程设备
下面这个选择system interpreter很重要。选择system interpreter很重要。pycharm 2023.1.2 专业版。远程设备搭建了anaconda虚拟环境。简单配置下吧,这玩意很智障。2、为项目配置远程映射路径。1、为项目添加解释器。
2023-10-18 09:26:14 73 1
原创 anaconda安装
source activate pyspark_env 或者 conda activate pyspark_env。deactivate pyspark_env 或者 conda deactivate。pip install -i 镜像地址 包名。例如: 创建一个pyspark_env 虚拟环境。conda uninstall 包名。conda install 包名。2、修改配置文件/etc/profile。pip uninstall 包名。2- 如何创建一个新的虚拟环境。3- 如何进入虚拟环境(激活)
2023-10-17 17:09:22 140
原创 mysql下载与mysql驱动下载
mysql下载MySQL :: Download MySQL Community Server (Archived Versions)mysql驱动下载MySQL :: MySQL Community Downloads
2023-10-17 15:49:17 53
原创 vm实现基本集群搭建准备
2、虚拟设备都能ping通外网,且在windows cmd窗口能ping通虚拟机。1、3台ip不同,物理地址不同,hostname不同的centos7的虚拟机,1、检查 【ip,hostname不能相同】
2023-10-17 11:00:32 93
原创 vm 一台设备复制为多台设备
修改1、ip2、hostname3、物理mac地址实现1. 设备克隆2. 修改物理地址3. 修改IP地址5. reboot。
2023-10-17 10:09:03 52
原创 hadoop 最精简配置
- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->-- 设置HDFS web UI用户身份 -->-- 设置YARN集群主角色运行机器位置 -->-- 设置Hadoop本地保存数据路径 -->-- 设置SNN进程运行机器位置信息 -->-- 整合hive 用户代理设置 -->-- 设置yarn历史服务器地址 -->-- MR程序历史服务器端地址 -->
2023-10-16 09:48:24 118 1
原创 chrome安装沙拉查词
链接:https://pan.baidu.com/s/1_XsoJi0JWpWemUZehHwNYg?pwd=84hr提取码:84hr。
2023-09-05 11:49:31 1889 1
原创 python 正则 ‘r’ 理解
python解释器转换”,“正则表达式转换”,“换行符\n”, "字符串\n"如果还不理解,可以去看下原文,如下。
2023-09-04 15:45:25 227 1
原创 VMware实现虚拟机的配置
步骤1 步骤2步骤3步骤4步骤5 步骤6步骤7 步骤8步骤9 步骤10步骤11 步骤12步骤13 步骤14步骤 15步骤1 步骤2步骤1,选择后一般点击第一个等待图形化界面的出现,步骤2步骤3 步骤4步骤5 步骤6步骤7 步骤8步骤9步骤10重点步骤11 步骤12步骤13 步骤14。
2023-08-17 17:41:58 2057
原创 jdk的配置linux
1、指向JDK的安装目录,方便后面jdk更新,直接更换JAVA_HOME内容就可以了。最常见的类是dt.jar,tool.jar,它们都在jdk的lib目录下面。在开发jdk的时候需要引用其它的类,需要让解释器知道去哪引用。JAVA_HOME、PATH和CLASSPATH配置的意义。3、有些第三方软件会引用约定好的JAVA_HOME。2、和PATH配置在一起,太长,不好看。#刷新环境变量文件 让配置生效。#删除红色安装包(可选)
2023-08-17 16:33:30 97 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人