- 博客(146)
- 资源 (4)
- 收藏
- 关注
原创 PowerDesigner使用逆向工程(Reverse engineer)连接数据库报错Could not Initialize JavaVM!
PowerDesigner使用
2022-08-24 20:52:16
1030
原创 DolphinScheduler执行sql提示 java.lang.RuntimeException: java.lang.ClassNotFoundException
dolphin使用
2022-08-17 15:07:59
1200
原创 Kafka批启停脚本
#!/bin/bashif [ $# -eq 0 ] then echo "Please enter param: 'start' or 'stop'"elif [ $1 == "start" ] then for i in {1..3} do echo "Staring Kafka service on lx0$i" #lx0$i是服务器实际主机名,或者可以直接写ip地址,""中的内容根据实际的绝对路径填写 ssh lx0$i
2022-05-30 23:36:36
220
原创 Java获取properties文件中参数值
废话不多说,直接上代码,client.properteis文件中内容如下bootstrap.server=lx01:9092,lx02:9092,lx03:9092param=value代码如下package com.jin.utils;import java.io.IOException;import java.io.InputStream;import java.util.Properties;/** * @Author : Admin * @Vertion : 1.0 *
2022-05-27 22:09:32
652
原创 Kafka命令行简单使用
创建topic指定副本数量,分区数量kafka-topics.sh --zookeeper lx01:2181 --create --partitions 2 --replication-factor 3 --topic tpc01#partitions 分区数量#replication-factor 副本数量#topic 所要创建的topic名称指定副本存储位置kafka-topics.sh --zookeeper lx01:2181 --create --replica-assignm.
2022-05-12 01:03:33
571
原创 hive中substr和regexp_replace的使用
substr从指定位开始截取字符串SELECT SUBSTR('2022-05-04',2) #这里以年月日作为测试数据,SUBSTR(column, start_index),这种用法会从start_index位置开始截取字符串到最后一位,这里要注意,索引是从1开始而不是0从指定位置开始截取,截取到指定的最后一位SELECT SUBSTR('2022-05-04',1,4)#SUBSTR(column, start_index, length),这里start_index还是截.
2022-05-04 09:56:43
1940
1
原创 Spark中cache、persist、checkpoint三者的比较
在Spark的数据处理过程中我们可以通过cache、persist、checkpoint这三个算子将中间的结果数据进行保存,这里主要就是介绍这三个算子的使用方式和使用场景1. 三者的使用1.1 cache的讲解与使用 cache算子可以将spark任务的中间结果数据缓存到内存当中,用以优化数据处理的时效性,这里结合代码进行讲解。 首先这里准备好数据文件# 通过命令我们可以看到数据文件有4592639 行[root@lx01 bin]# wc -l /root/log-t.txt4592
2022-04-23 20:41:24
2631
原创 spark-submit提交任务报错:java.sql.SQLException:No suitable driver
提交spark任务时一直报错:No suitable driver提交任务命令如下spark-submit \--driver-class-path /opt/sparkJob/mysql-connector-java-5.1.47.jar \--master yarn \--deploy-memory cluster \--driver-memory 4G \--executor-memory 2G \--total-executor-cores 12 \--class com.xxx.
2022-04-13 21:09:36
2298
4
原创 HIVE的metastore和hiveserver2服务的启动和停止脚本
启动脚本在hive的bin目录下执行vi hive-start.sh命令或者通过touch hive-start.sh创建一个文件都可以,在脚本内添加如下内容#!/bin/bash# 启动hive的metastore服务hive --service metastore > /dev/null 2>&1 &echo -n "Starting metastore servece,please wait"mt=1while [ $mt -ne 0 ] do .
2022-02-28 17:30:32
4049
原创 Linux设置MySQL表名大小写不敏感
很多时候Mysql的表名大小写敏感会造成一定的不便,这个时候就需要我们修改这个配置我们通过修改my.cnf文件的参数来达到大小写不敏感vi /etc/my.cnf# 在[mysqld]加入下面参数lower_case_table_names=1然后保存退出,重启服务systemctl restart mysqld这个时候就已经设置好表名称大小写不敏感了。...
2022-02-17 10:47:23
1440
原创 Ambari-2.7.4和HDP-3.1.4安装(附Ambari和HDP安装包)
文章目录1. 环境及软件准备2. 准备工作2.1 关闭防火墙2.2 配置域名映射2.3 配置免密2.4 时间同步2.4.1 时间服务器配置(root用户)2.4.2 其他服务器配置(root用户)2.5 安装JDK(所有节点)2.6 安装MySQL2.7 关闭SELinux3. 安装ambari3.1 配置ambari和hdp的yum源3.1.1 安装http3.1.2 开始配置ambari和hdp源3.2 配置和安装ambari-server3.2.1 安装ambari-server3.2.2 配置数据库
2022-02-16 14:52:21
7755
15
原创 CentOS7.9离线安装mysql
文章目录1. 下载mysql安装包2. 安装mysql3. 配置mysql1. 下载mysql安装包mysql5.7.34百度网盘,提取码:2f6m下载mysql的安装包MySQL官网下载地址,如下图所示2. 安装mysql因为CentOS7自带Mariadb,所以要先将Mariadb删除掉才能安装mysql# 找到mariadbrpm -qa | grep mariadb#找到对应的包后删除rpm -e -nodeps mariadb-libs-XXX3将下载好的msyql安装包
2022-02-11 16:45:22
2624
原创 达梦数据库表结构批量导出
选择所要导出的模式鼠标右键选择’模式对象导出’,如下图选择要导出的表,可以选择一个或多个表,也可以直接选择全部数据表选择好数表后,选择一个目录并指定所要保存的文件名称,如下图所示点击导出后,只要没报错就证明导出成功了....
2022-01-18 11:14:03
3143
原创 org.apache.hadoop.hdfs.server.namenode.FSImage:Failed to load image fromFSImangeFile(file=fsimage..)
大数据平台环境:4节点,配置主副namenode状态:副namenode服务无法启动,主namenode和所有datanode状态正常通过查看hdfs的启动日志得知,是副namenode中的镜像文件除了问题,报错内容如下所示:org.apache.hadoop.hdfs.server.namenode.FSImage:Failed to load image fromFSImangeFile(file=fsimage_0000000000496112425).解决方法: 将大数据平台的服务停止,然
2022-01-06 16:03:11
1420
原创 使用iterator的注意点
iterator是我们编程中经常使用的,我们都知道在取迭代器中的元素时,是通过改变指针的位置来获取到元素,而指针位置如果发生变化,就无法在获取到上一个指针位置的元素, 而iterator的某些方法也同样是遍历所有的元素,即指针的位置会移位到最后.我在使用的时候就遇到了这个问题,也是对迭代器的了解不够多,这里就以我遇到的问题举个例子. 我是编写spark core数据处理流程,以数据表中的xid最为分组,返回的数据形式为tuple2,第一个位置就是xid,第二个位置就是iterator,iterato
2021-12-19 16:47:30
1582
原创 Spark SQL小文件处理
使用spark sql时候,小文件问题是避免不了的,当我们从hive中读取数据表时,默认就是200个分区,如果不加以处理,当我们在将数据写入到表中时,就会形成200个小文件,这样对于hdfs来说是很不友好的,会加重namenode的压力.针对于spark sql有三种方式可以对小文件的问题进行处理设置spark sql的shuffle的分区数量.使用coalesces算子使用repartition算子未设置分区数量前从hive中读取数据,分区去量如下图通过图片我们可以看到,就是默认的分区
2021-12-15 01:44:55
1119
原创 SparkCore中的combineByKey的使用
在我们编写SparkCore代码时通常使用的聚合类算子有reduceByKey、aggregateByKey、foldByKey,但是这三个算子底层都调用了combineByKey算子,这里就介绍一下如何使用combineByKey首先我们看一下使用这个算子要传入哪些参数,如下图所示这里主要以红框中的作为使用参数讲解通过上图我们可以看出使用这个算子我们最少要传入三个函数作为参数这里在代码中对三个参数进行讲解// 创建一个值为Tuple2类型的数组val arr = Array(("To
2021-12-10 01:12:53
395
原创 Spark中map和mapPartitions的区别
map和mapPartitions的区别map和mapPartitions的本质区别map是对RDD中的每个元素进行操作,源码如下所示 /** * Return a new RDD by applying a function to all elements of this RDD. */ def map[U: ClassTag](f: T => U): RDD[U] = withScope { val cleanF = sc.clean(f) new Map
2021-12-03 01:14:59
2455
原创 将shell脚本添加到开机启动
有时我们需要将shell脚本作为开机自启动服务,这样能避免出现问题后重新开机还需要再挨个启动服务脚本内容如下#!/bin/bash#chkconfig: 2345 90 10#description:auto_runecho "success!" >> /root/test.txt#chkconfig: 2345 90 10#description:auto_runchkconfig参数说明:参数说明0关机1单用户模式2无网络支持的多
2021-11-11 17:25:17
3463
原创 sqoop出现ERROR tool.ImportTool: Import failed: java.io.IOException
21/11/08 12:13:10 ERROR tool.ImportTool: Import failed: java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the correspond server addresses. at org.apache.hadoop.mapreduce.Cluster.initial
2021-11-08 12:23:32
6056
1
原创 Kettle中Clone row组件的使用
“Clone row”组件使用起来比较简单,根据具体需求对原数据的每一行进行克隆,可以选择克隆一行或多行。将算子“Clone row”拖拽到转换页面中,如图 1-1所示,原始文件中数据如图 1-2图1-1图1-2双击“Clone row”,配置参数,如下图所示查看结果数据,如下图所示上图结果数据中,红框中的数据为原数据,绿色框中的数据为克隆的数据,可以看到是和配置参数相符的。...
2021-10-24 15:50:21
521
原创 java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
在写完spark程序后,进行本地调试报了下面这个异常Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties21/09/18 12:51:53 INFO SparkContext: Running Spark version 3.0.021/09/18 12:51:53 ERROR Shell: Failed to locate the winutils binary in the hadoop bi
2021-09-18 13:22:37
255
原创 Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/spark/SparkConf
在本地调试运行spark程序时,报错Exception in thread “main” java.lang.NoClassDefFoundError: org/apache/spark/SparkConf,这个错误就是程序在运行时找不到类Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf at cn.jin.spark.JavaLambdaWordCount.main(JavaLam
2021-09-18 13:08:29
5961
原创 Kettle中“Switch/case“组件的使用
“Switch/case”算子的组要作用就是匹配一个字段中的所有值,符合条件的发送给下一个算子,这里以不同班级的学生为例子,以班级做区分分别发送给不同的算子,这里为了方便后续算子都使用“空操作(什么也不做)”算子。完整的流程如图 1-1,原始文件中的数据如图1-2图1-1图1-2上图中的流程,以班级做区分一班->空操作1、二班->空操作2、三班->空操作3双击“Switch/case”算子配置相关参数,如下图所示通过“Preview data”分别查看空操作1、
2021-09-16 17:23:44
6068
原创 spark提交jar包到集群中
这里简单做一个wordcount代码,代码如下object WordCount { def main(args: Array[String]): Unit = { // 创建SparkConf val conf = new SparkConf().setAppName("WordCount") // 创建SparkContext val sc = new SparkContext(conf) // 通过SparkContext创建RDD val line
2021-09-15 23:26:52
917
原创 Kettle中“设置字段值“组件的使用
“设置字段值”组件使用起来比较简单,就是一个将字段中的值替换另一个字段中的值.文件中的数据如下图所示将“设置字段值”组件拖拽到转换页面中,配置参数,如下图所示结果数据如下图所示通过结果数据可以看出column1字段中的值已经被column2中的值所替换....
2021-09-15 16:37:54
2542
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅