korry24-CSDN博客

原创 java算法刷题基础知识汇总（持续更新中）

【代码】java算法刷题基础知识汇总。

2024-06-19 16:19:17 332

原创 spark并行度(parallelism)和分区(partition)未生效的问题

spark的并行度对spark的性能是又很大的影响的，spark任务能快速计算主要就是因为内存计算和并行计算。对于并行计算，我们就要涉及到并行度的问题，那并行度跟什么有关系呢？

2023-04-20 17:25:52 1286

原创 Spark通过jdbc性能调优--采用分区的方式从oracle读数据

采用ROWID的最后一位的ASCII码对20进行取模，得到的模是0-19之间的，这样就可以将这个值作为分区键，每条数据记录将会划分到固定的分区。因为分区数是20，所以在oracle数据里面就会生成20条SQL，每条sql又一个excutor取读取。常规jdbc读取表的时候只有一个分区在执行，也就是只有一个excutor在工作，没有把spark并行操作的特性发挥出来。通过查阅sparksql官方文档，查阅到如下的jdbc操作数据库的连接属性。所以我们可以采取上表中所示的分区读表的方式来优化这个问题。

2023-04-10 17:14:30 1622

原创 sparksql数值类型排序乱序

sparksql数值排序未生效

2023-04-03 10:03:25 615

原创大数据面试技术点总结

大数据面试题，hadoop，mysql，hive，spark，kafka，hbase，flink

2023-03-31 11:05:23 1032

原创 hivesql行转列和列转行

hivesql行转列和列转行。

2023-03-13 11:31:11 2889

原创拉链表的另类尝试，存档历史数据

数据库，拉链表

2022-10-08 17:31:28 470

原创 spark 算子内部引用sparkSession对象报java.lang.NullPointerException解决方法

spark算子内部引用sparkSession对象报空指针异常

2022-09-06 17:33:24 1974

原创 scala单例模式代码实现

scala 单例模式，带参数不带参数

2022-08-17 16:30:45 170

原创 RSA加密解密算法代码实现【scala&java】

RSA加密 java scala

2022-08-12 15:13:54 1460

原创 spark on yarn运行日志查看

spark日志信息查看，shell提交spark程序写出日志信息到指定路径

2022-08-11 17:32:09 4634

原创 Git使用笔记

1. Git新拉分支开发，开发完成再合并打开项目新建一个自己的分支用于开发选择要开发的分支，等于是复制该分支（一般命名规则是"原分支-子分支名"）将上面建的分支拉倒本地进行开发，开发完成后进行合并，将新开发的合并到原分支上...

2021-10-22 10:57:14 85

原创 mysql批量删除表

mysql批量删除表查询构建所有的删除语句SELECT CONCAT('drop table ',table_name,';')FROM information_schema.TABLESWHERE table_name LIKE 'fine_%';复制查出来的删除sql语句，并批量执行drop table QRTZ_BLOB_TRIGGERS;drop table QRTZ_CALENDARS;drop table QRTZ_CRON_TRIGGERS;drop table

2021-10-13 09:25:53 1963

原创 MySQL批量插入数据 ON DUPLICATE KEY UPDATE

INSERT INTO … ON DUPLICATE KEY UPDATE向student表中插入学生信息，如果student表已经存在该id，那么就将该id对应姓名更新；如果不存在该id，那么插入新的一行记录；insert into student(id,name) values(3,'kobe'),(4,'Curry') ON DUPLICATE KEY UPDATE name=values(name)insert into student(id,name) select id,name

2021-09-27 18:15:36 424

原创 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

FAILED: Execution Error, return code 137 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTaskFAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask# java.lang.OutOfMemoryError: Java heap space# -XX:OnOutOfMemoryE

2021-09-26 11:10:02 1182

原创 Linux系统Redis安装详解

1，下载安装包下载地址：http://download.redis.io/releases/redis-3.0.4.tar.gz直接点击连接即可进行下载2、安装1.下载好安装包之后，将安装包上传至Linux指定目录下、：/opt/softwawre/tempRedis2.由于redis是由C语言编写的，它的运行需要C环境，因此我们需要先安装gcc。安装命令如下：[root@hadoop100 software]# yum install -y gcc3.解压安装包[root@no

2021-06-25 14:39:09 211 2

原创 SparkStream详解

SparkStream1、项目实例，从linux传输数据2、使用sparkStream读取kafka的数据，进行处理，再写回kafka1、项目实例，从linux传输数据新建maven项目，并导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version&g

2021-06-22 20:03:13 647

原创 azkaban的安装、配置与使用详解

azkaban的安装、配置与使用1、下载安装包并编译2、MySQL创建azkaban数据库和用户3、配置azkaban-exec4、配置azkaban-web1、下载安装包并编译1.下载如下软件安装包，上传至虚拟机并解压gradle-5.6.3-all.zipazkaban-3.84.10.tar.gz tmp[root@hadoop100 software]# tar -zxvf azkaban-3.84.10.tar.gz[root@hadoop100 software]# unzip g

2021-06-21 20:13:39 3529

原创 wget安装MySQL（5.6和5.7超详细版）

wget安装MySQLwget的安装与使用安装wget：yum -y install wget检查是否安装成功：rpm -qa|grep "wget"MySQL安装1.下载mysql源安装包：wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm2.安装mysql源：yum localinstall mysql57-community-release-el7-8.noarch.rpm3.检查mysql源

2021-06-21 11:22:14 8358

原创 mongodb安装配置与基本命令

1、mongodb安装与配置下载安装包：mongodb-linux-x86_64-rhel70-4.0.24.tgz将安装包放在指定路径（/opt/software），直接解压安装，并且改名tar -zxvf mongodb-linux-x86_64-rhel70-4.0.24.tgzmv mongodb-linux-x86_64-rhel70-4.0.24 mongodb进入mongodb目录新建数据库目录 ./data/db新建日志目录 ./log新建文件mongo.conf，

2021-06-04 14:39:10 166 1

原创 Java实现WordCount(多线程和单线程)

1、单线程实现WordCountpackage cn.kgc.kb11.wc;import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.Iterator;import java.util.Map;import java.util.Set;import java.util.Tr

2021-06-03 19:32:59 558

原创 flume安装配置与原理

1、flume的安装下载flume，解压安装flume-ng-1.6.0-cdh5.14.0.tar.gz修改配置文件cd /opt/software/flume/confmv flume-env.sh.template flume-env.shvi flume-env.sh修改如下的内容在如下位置加入jdk的路径和给flume分配的内存大小2、flume的简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用

2021-05-24 18:32:04 258 3

原创 Kafka安装与集群搭建&基本命令&API

1、安装与集群搭建下载并解压安装软件kafka_2.11-2.0.0.tgz1.1、配置单机修改配置文件vi opt/software/kafka/config/server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://192.168.153.141:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=192.168.153.141:2181

2021-05-21 17:35:50 83

原创 scala安装与配置（详细步骤）

scala安装与配置一、window系统安装Scala1.下载安装2.配置环境变量3.验证二、window系统安装Scala三、IDEA安装scala插件一、window系统安装Scala1.下载安装首先去官网http://www.scala-lang.org/，然后点击导航栏的DOWNLOAD，进入下载链接：http://www.scala-lang.org/download/直接点击上面的按钮下载Windows安装包。msi格式，可以直接安装，然后双击运行，直至安装成功，此时查看环境变量会发现

2021-04-22 14:33:06 13879 3

原创 Hive函数

hive函数1. Hive函数分类1.1 从输入输出角度分类1.2 从实现方式分类1.3 具体函数2. hive性能调优2.1 Hive性能调优工具2.2 Hive优化设计2.3 Job优化2.4 查询优化2.5 压缩算法1. Hive函数分类1.1 从输入输出角度分类标准函数：一行数据中的一列或多列为输入，结果为单一值聚合函数：多行的零列到多列为输入，结果为单一值表生成函数：零个或多个输入，结果为多列或多行1.2 从实现方式分类内置函数标准函数①字符函数②类型转换函数③数学函

2021-04-08 15:10:23 230

原创 Hive的UDF步骤

Hive的UDF步骤新建一个maven project下载依赖写Java程序maven下面bin的安装路径/mvn clean 清空之前的jar包 maven下面bin的安装路径/install 打jar包hive中创建函数方式1：将jar包上传至Hadoop，放到指定目录中，如：/opt/data/hive中添加jar包add jar /opt/data/myUDF-1.0-SNAPSHOT.jar; //jar包地址list jar; 可以查看j

2021-04-06 16:49:32 309

原创 hive基础与高级查询

hive基础与高级查询1.数据库和数据仓库1.1 数据仓库1.2 数据库和数据仓库的区别1.3 数据仓库的分层架构2.Hive2.1 Hive的基本概念2.2 Hive元数据管理2.3 hive的命令窗口模式2.4 hive的数据类型2.5 数据库与数据表2.6 建表语句2.7 hive 分区2.8 分桶2.9 Hive视图（Views）2.10 装载数据2.11 Hive数据排序2.12 聚合函数2.13 窗口函数1.数据库和数据仓库1.1 数据仓库什么是数据仓库数据仓库（Data Wareho

2021-04-04 12:54:31 567

空空如也

空空如也