自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 从gitee下载hadoop-3.3.0-winutils

安装一个git,git上配置用户名,邮箱 ->用户名就是gitee账户,邮箱就是gitee关联的邮箱。1、进入gitee官网https://gitee.com/2、搜索hadoop-3.3.0-winutils。若需要设置代理,无账户密码认证。

2024-10-11 13:06:30 450

原创 iceberg 遇到的问题

writetadata.previous-versions-max=2 # 保留历史数据最大为2,加上最新数据,一共3个。通过org.apache.iceberg.actions.RewriteDataFiles来实现表的数据文件的合并,writetadata.delete-after-commit.enabled=true # 删除历史数据。

2024-05-09 11:16:26 269

原创 虚拟机ping不通

隔了一段时间,想复习下以前学的知识,需要用到虚拟机,于是乎,开启虚拟机,主机死活ping不通虚拟机,去网上搜索,检查发现虚拟机防火墙是关闭的,网卡开启的,网段也是和虚拟机配置的同一网段,主机的vmnet8也是开启的,网段也是对的。可能是虚拟机坏了吧,重新搭建一个虚拟机,我艹,还是不行,继续查资料,查资料,最后想着是不是主机的ip和虚拟机冲突了,看了下,没冲突啊,算了,改下vm上的网段吧(包括虚拟机,主机),没想到,这一改,可以了。后面想着,不对,肯定有哪出问题了,然后。

2024-03-10 14:04:11 433

原创 sqoop基本使用

【代码】sqoop基本使用。

2023-11-17 15:08:01 101

原创 sqoop的安装

sqoop的安装

2023-11-17 15:01:53 86

原创 RDD(缓存|检查点|广播变量|累加器)

缓存|检查点|广播变量|累加器

2023-11-06 09:16:49 96

原创 rdd算子的使用例子

rdd算子的使用例子

2023-11-06 08:59:08 91

原创 spark standalone HA

再启动zk (所有节点) zookeeper-3.4.6/bin/zkServer.sh start。然后启动spark (node1) spark/sbin/start-all.sh。最后启动备份节点(node2)spark/sbin/start-master.sh。先启动hdfs (node1) start-dfs.sh。配置前提:hdfs、zk、spark 可用。

2023-11-03 11:26:15 54

原创 spark standalone模式

log4j.rootCategory=info 改为 log4j.rootCategory=warn。核心:spark集群加hdfs。# 启动日志 (18080)

2023-10-30 15:33:26 70

原创 presto 内存配置

2) 对于 memory.heap-headroom-per-node 第三方库的内存配置 : 建议 jvm内存的 15%左右, 默认为30%3) 在配置的时候, 不要正正好后, 建议预留一点点, 以免出现问题,建议预留 5%~10%4) 用户内存和系统内存之间比较, 一般是以 8/2原则或者 7/3原则。1) 各个节点 JVM内存推荐大小: 当前节点剩余内存 80%

2023-10-28 11:58:03 170

原创 presto 时间函数

比如 数据字段类型为date类型,那么在基于这个字段进行过滤的时候, 编写的过滤条件上值必须也是date类型。在presto中, 对于数据类型要求比较严格,

2023-10-28 11:42:48 1052

原创 python jieba分词

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

2023-10-20 20:12:29 57 1

原创 spark on yarn 环境配置

当Spark Application应用提交运行在YARN上时,默认情况下,每次提交应用都需要将依赖Spark相关jar包上传到YARN 集群中,为了节省提交时间和存储空间,将Spark相关jar包上传到HDFS目录中,设置属性告知Spark Application应用。-- 设置聚合日志在hdfs上的保存时间 -->-- 设置yarn集群的内存分配方案 -->-- 设置yarn历史服务器地址 -->-- 配置yarn主节点的位置 -->-- 关闭yarn内存检查 -->-- 开启日志聚合功能 -->

2023-10-20 18:30:23 368 1

原创 rdd算子

reparation 是coalesce的一种当参数2为True一种简写coalesce 默认只能进行减少分区, 如果要增大分区, 需要将参数2设置为True, 一旦设置为True就会产生shuffle区别:1) 两个算子都是用于重分区的算子, 一个能增大也能减少, 而coalesce默认只能减少分区2) reparation默认会产生shuffle 而coalesce默认没有shuffle3) reparation 是coalesce的一种当参数2为True一种简写。

2023-10-20 18:29:54 109 1

原创 运行spark报JAVA_HOME is not set

2、找不到java环境,可能是配置了多个python 环境导致,【经检查/etc/profile有配置JAVA_HOME,可能因为优先级没访问到】,在~/.bashrc里面配置就ok了,【我初始化anaconda 是配置在bashrc的,使用的是anaconda的python解释器】1、运行spark程序时,部分python代码需要py4j转换为java代码,而远端设备找不到java环境。2、 需要在代码中添加以下内容,用于锁定远程版本 (放置在mian函数的上面)

2023-10-19 19:41:30 514 1

原创 pycharm 连接远程设备

下面这个选择system interpreter很重要。选择system interpreter很重要。pycharm 2023.1.2 专业版。远程设备搭建了anaconda虚拟环境。简单配置下吧,这玩意很智障。2、为项目配置远程映射路径。1、为项目添加解释器。

2023-10-18 09:26:14 73 1

原创 anaconda安装

source activate pyspark_env 或者 conda activate pyspark_env。deactivate pyspark_env 或者 conda deactivate。pip install -i 镜像地址 包名。例如: 创建一个pyspark_env 虚拟环境。conda uninstall 包名。conda install 包名。2、修改配置文件/etc/profile。pip uninstall 包名。2- 如何创建一个新的虚拟环境。3- 如何进入虚拟环境(激活)

2023-10-17 17:09:22 140

原创 hive 配置

hvie配置

2023-10-17 15:50:43 81

原创 mysql下载与mysql驱动下载

mysql下载MySQL :: Download MySQL Community Server (Archived Versions)mysql驱动下载MySQL :: MySQL Community Downloads

2023-10-17 15:49:17 53

原创 vm实现基本集群搭建准备

2、虚拟设备都能ping通外网,且在windows cmd窗口能ping通虚拟机。1、3台ip不同,物理地址不同,hostname不同的centos7的虚拟机,1、检查 【ip,hostname不能相同】

2023-10-17 11:00:32 93

原创 vm 一台设备复制为多台设备

修改1、ip2、hostname3、物理mac地址实现1. 设备克隆2. 修改物理地址3. 修改IP地址5. reboot。

2023-10-17 10:09:03 52

原创 hadoop 最精简配置

- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->-- 设置HDFS web UI用户身份 -->-- 设置YARN集群主角色运行机器位置 -->-- 设置Hadoop本地保存数据路径 -->-- 设置SNN进程运行机器位置信息 -->-- 整合hive 用户代理设置 -->-- 设置yarn历史服务器地址 -->-- MR程序历史服务器端地址 -->

2023-10-16 09:48:24 118 1

原创 posexplode 和 lateral view

比较经典的posexplode 和lateral view

2023-10-14 20:39:02 133 1

原创 presto配置

前提环境jdk 1.8+

2023-10-07 17:23:27 199 1

原创 zk集群搭建

环境:WM。

2023-09-30 13:01:09 66

原创 重启后,虚拟机网卡启动不了

在网上查询,NetworkManager 和network 不能同时启动 -- 懵的。

2023-09-09 17:32:16 259 1

原创 chrome安装沙拉查词

链接:https://pan.baidu.com/s/1_XsoJi0JWpWemUZehHwNYg?pwd=84hr提取码:84hr。

2023-09-05 11:49:31 1889 1

原创 python 正则 ‘r’ 理解

python解释器转换”,“正则表达式转换”,“换行符\n”, "字符串\n"如果还不理解,可以去看下原文,如下。

2023-09-04 15:45:25 227 1

原创 mysql的安装与卸载

演示Centos7安装mysql 5.x。

2023-08-29 18:46:12 132 1

原创 VMware实现虚拟机的配置

步骤1 步骤2步骤3步骤4步骤5 步骤6步骤7 步骤8步骤9 步骤10步骤11 步骤12步骤13 步骤14步骤 15步骤1 步骤2步骤1,选择后一般点击第一个等待图形化界面的出现,步骤2步骤3 步骤4步骤5 步骤6步骤7 步骤8步骤9步骤10重点步骤11 步骤12步骤13 步骤14。

2023-08-17 17:41:58 2057

原创 jdk的配置linux

1、指向JDK的安装目录,方便后面jdk更新,直接更换JAVA_HOME内容就可以了。最常见的类是dt.jar,tool.jar,它们都在jdk的lib目录下面。在开发jdk的时候需要引用其它的类,需要让解释器知道去哪引用。JAVA_HOME、PATH和CLASSPATH配置的意义。3、有些第三方软件会引用约定好的JAVA_HOME。2、和PATH配置在一起,太长,不好看。#刷新环境变量文件 让配置生效。#删除红色安装包(可选)

2023-08-17 16:33:30 97 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除