自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(69)
  • 收藏
  • 关注

原创 spark并行度(parallelism)和分区(partition)未生效的问题

spark的并行度对spark的性能是又很大的影响的,spark任务能快速计算主要就是因为内存计算和并行计算。对于并行计算,我们就要涉及到并行度的问题,那并行度跟什么有关系呢?

2023-04-20 17:25:52 1117

原创 Spark通过jdbc性能调优--采用分区的方式从oracle读数据

采用ROWID的最后一位的ASCII码对20进行取模,得到的模是0-19之间的,这样就可以将这个值作为分区键,每条数据记录将会划分到固定的分区。因为分区数是20,所以在oracle数据里面就会生成20条SQL,每条sql又一个excutor取读取。常规jdbc读取表的时候只有一个分区在执行,也就是只有一个excutor在工作,没有把spark并行操作的特性发挥出来。通过查阅sparksql官方文档,查阅到如下的jdbc操作数据库的连接属性。所以我们可以采取上表中所示的分区读表的方式来优化这个问题。

2023-04-10 17:14:30 1395

原创 sparksql数值类型排序乱序

sparksql数值排序未生效

2023-04-03 10:03:25 544

原创 大数据面试技术点总结

大数据面试题,hadoop,mysql,hive,spark,kafka,hbase,flink

2023-03-31 11:05:23 883

原创 hivesql行转列和列转行

hivesql行转列和列转行。

2023-03-13 11:31:11 2683

原创 拉链表的另类尝试,存档历史数据

数据库,拉链表

2022-10-08 17:31:28 445

原创 spark 算子内部引用sparkSession对象报java.lang.NullPointerException解决方法

spark算子内部引用sparkSession对象报空指针异常

2022-09-06 17:33:24 1832

原创 scala单例模式代码实现

scala 单例模式,带参数 不带参数

2022-08-17 16:30:45 146

原创 RSA加密解密算法代码实现【scala&java】

RSA加密 java scala

2022-08-12 15:13:54 1428

原创 spark on yarn运行日志查看

spark日志信息查看,shell提交spark程序写出日志信息到指定路径

2022-08-11 17:32:09 4159

原创 Git使用笔记

1. Git新拉分支开发,开发完成再合并打开项目新建一个自己的分支用于开发选择要开发的分支 ,等于是复制该分支(一般命名规则是"原分支-子分支名")将上面建的分支拉倒本地进行开发,开发完成后进行合并,将新开发的合并到原分支上...

2021-10-22 10:57:14 67

原创 mysql批量删除表

mysql批量删除表查询构建所有的删除语句SELECT CONCAT('drop table ',table_name,';')FROM information_schema.TABLESWHERE table_name LIKE 'fine_%';复制查出来的删除sql语句,并批量执行drop table QRTZ_BLOB_TRIGGERS;drop table QRTZ_CALENDARS;drop table QRTZ_CRON_TRIGGERS;drop table

2021-10-13 09:25:53 1908

原创 MySQL批量插入数据 ON DUPLICATE KEY UPDATE

INSERT INTO … ON DUPLICATE KEY UPDATE向student表中插入学生信息,如果student表已经存在该id,那么就将该id对应姓名更新;如果不存在该id,那么插入新的一行记录;insert into student(id,name) values(3,'kobe'),(4,'Curry') ON DUPLICATE KEY UPDATE name=values(name)insert into student(id,name) select id,name

2021-09-27 18:15:36 388

原创 FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

FAILED: Execution Error, return code 137 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTaskFAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask# java.lang.OutOfMemoryError: Java heap space# -XX:OnOutOfMemoryE

2021-09-26 11:10:02 1130

原创 Linux系统Redis安装详解

1,下载安装包下载地址:http://download.redis.io/releases/redis-3.0.4.tar.gz直接点击连接即可进行下载2、安装1.下载好安装包之后,将安装包上传至Linux指定目录下、:/opt/softwawre/tempRedis2.由于redis是由C语言编写的,它的运行需要C环境,因此我们需要先安装gcc。安装命令如下:[root@hadoop100 software]# yum install -y gcc3.解压安装包[root@no

2021-06-25 14:39:09 198 2

原创 SparkStream详解

SparkStream1、项目实例,从linux传输数据2、使用sparkStream读取kafka的数据,进行处理,再写回kafka1、项目实例,从linux传输数据新建maven项目,并导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version&g

2021-06-22 20:03:13 619

原创 azkaban的安装、配置与使用详解

azkaban的安装、配置与使用1、下载安装包并编译2、MySQL创建azkaban数据库和用户3、配置azkaban-exec4、配置azkaban-web1、下载安装包并编译1.下载如下软件安装包,上传至虚拟机并解压gradle-5.6.3-all.zipazkaban-3.84.10.tar.gz tmp[root@hadoop100 software]# tar -zxvf azkaban-3.84.10.tar.gz[root@hadoop100 software]# unzip g

2021-06-21 20:13:39 3284

原创 wget安装MySQL(5.6和5.7超详细版)

wget安装MySQLwget的安装与使用安装wget:yum -y install wget检查是否安装成功:rpm -qa|grep "wget"MySQL安装1.下载mysql源安装包:wget http://dev.mysql.com/get/mysql57-community-release-el7-8.noarch.rpm2.安装mysql源:yum localinstall mysql57-community-release-el7-8.noarch.rpm3.检查mysql源

2021-06-21 11:22:14 7443

原创 mongodb安装配置与基本命令

1、mongodb安装与配置下载安装包:mongodb-linux-x86_64-rhel70-4.0.24.tgz将安装包放在指定路径(/opt/software),直接解压安装,并且改名tar -zxvf mongodb-linux-x86_64-rhel70-4.0.24.tgzmv mongodb-linux-x86_64-rhel70-4.0.24 mongodb进入mongodb目录新建数据库目录 ./data/db新建日志目录 ./log新建文件mongo.conf,

2021-06-04 14:39:10 150 1

原创 Java实现WordCount(多线程和单线程)

1、单线程实现WordCountpackage cn.kgc.kb11.wc;import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.Iterator;import java.util.Map;import java.util.Set;import java.util.Tr

2021-06-03 19:32:59 526

原创 flume安装配置与原理

1、flume的安装下载flume,解压安装flume-ng-1.6.0-cdh5.14.0.tar.gz修改配置文件cd /opt/software/flume/confmv flume-env.sh.template flume-env.shvi flume-env.sh修改如下的内容在如下位置加入jdk的路径和给flume分配的内存大小2、flume的简介flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用

2021-05-24 18:32:04 231 3

原创 Kafka安装与集群搭建&基本命令&API

1、安装与集群搭建下载并解压安装软件kafka_2.11-2.0.0.tgz1.1、配置单机修改配置文件vi opt/software/kafka/config/server.propertiesbroker.id=0advertised.listeners=PLAINTEXT://192.168.153.141:9092log.dirs=/opt/bigdata/kafka211/kafka-logszookeeper.connect=192.168.153.141:2181

2021-05-21 17:35:50 74

原创 scala安装与配置(详细步骤)

scala安装与配置一、window系统安装Scala1.下载安装2.配置环境变量3.验证二、window系统安装Scala三、IDEA安装scala插件一、window系统安装Scala1.下载安装首先去官网http://www.scala-lang.org/,然后点击导航栏的DOWNLOAD,进入下载链接:http://www.scala-lang.org/download/直接点击上面的按钮下载Windows安装包。msi格式,可以直接安装,然后双击运行,直至安装成功,此时查看环境变量会发现

2021-04-22 14:33:06 12892 3

原创 Hive函数

hive函数1. Hive函数分类1.1 从输入输出角度分类1.2 从实现方式分类1.3 具体函数2. hive性能调优2.1 Hive性能调优工具2.2 Hive优化设计2.3 Job优化2.4 查询优化2.5 压缩算法1. Hive函数分类1.1 从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行1.2 从实现方式分类内置函数标准函数①字符函数②类型转换函数③数学函

2021-04-08 15:10:23 201

原创 Hive的UDF步骤

Hive的UDF步骤新建一个maven project下载依赖写Java程序maven下面bin的安装路径/mvn clean 清空之前的jar包 maven下面bin的安装路径/install 打jar包hive中创建函数方式1:将jar包上传至Hadoop,放到指定目录中,如:/opt/data/hive中添加jar包add jar /opt/data/myUDF-1.0-SNAPSHOT.jar; //jar包地址list jar; 可以查看j

2021-04-06 16:49:32 277

原创 hive基础与高级查询

hive基础与高级查询1.数据库和数据仓库1.1 数据仓库1.2 数据库和数据仓库的区别1.3 数据仓库的分层架构2.Hive2.1 Hive的基本概念2.2 Hive元数据管理2.3 hive的命令窗口模式2.4 hive的数据类型2.5 数据库与数据表2.6 建表语句2.7 hive 分区2.8 分桶2.9 Hive视图(Views)2.10 装载数据2.11 Hive数据排序2.12 聚合函数2.13 窗口函数1.数据库和数据仓库1.1 数据仓库什么是数据仓库数据仓库(Data Wareho

2021-04-04 12:54:31 541

原创 Zepplin安装使用

Zepplin安装使用下载安装包http://zeppelin.apache.org/download.html选择zeppelin-0.8.1-bin-all.tgz解压安装将下载好的压缩包上传到Linux指定目录下,如:/opt/software/tar -zvxf zeppelin-0.8.1-bin-all.tgzmv zeppelin-0.8.1-bin-all.tgz zepplin修改配置文件修改端口号:默认是8080,为避免冲突,修改为其他端口号,如8000

2021-04-01 16:58:52 118

原创 HIVE安装

hive安装与配置前置安装hadoop 以及 zookeeper安装mysql数据库安装hivestep1:解压安装tar –zxvf apache-hive-1.2.2.bin.tar.gzmv apache-hive-1.2.2.bin.tar.gz hive //改名step2:新建存储hive数据的路径mkdir /opt/software/hive/warehousestep3:配置环境变量export HIVE_HOME=/opt/software/hiv

2021-04-01 16:25:19 63

原创 Yarn

Yarn1. Yarn的主要组件2. 工作流程1. Yarn的主要组件ResourceManager:负责处理客户端请求,对个NM上的资源进行统一管理和调度,给ApplicationMaster分配空闲的Container运行并监控其运行状态。主要由调度器和应用程序管理器组成1)调度器(scheduler):根据应用程序的资源要求以及集群机器的资源状况,为应用程序分配封装在Container中的资源。2)应用程序管理器(ApplicationManager):负责整个系统中所有的应用程序,启动A

2021-03-30 17:37:11 57

原创 MapReduce

MapReduce1.MapReduce的原理2. MapReduce设计构思3. MapReduce编程规范4. Shuffle5. MapReduce的整个流程1.MapReduce的原理把要执行的功能通过jar包的形式发布到各节点,由各个节点来执行jar包的功能传统分布式计算是把其他节点的数据集中在计算节点,由计算节点统一执行2. MapReduce设计构思3. MapReduce编程规范Map阶段两个步骤1).设置InputFormat类,将数据切分为key-value(k1和v

2021-03-30 17:31:55 50

原创 HDFS

HDFSHDFS:分布式文件存储1.HDFS架构2.HDFS副本机制:3.HDFS命令4.Java实现HDFS文件的读取5.HDFS写文件过程6.HDFS读文件7.HDFS的元数据管理8.HDFS的高可用机制HDFS:分布式文件存储1.HDFS架构client:文件切分。文件上传的时候,client将文件切分成一个个的block,然后进行存储;与NameNode交互,获取文件的位置信息;与DataNode交互,读取或者写入数据;提供命令俩管理和访问HDFS,比如启动或者关闭NameNode

2021-03-30 17:17:49 159

原创 大数据概况

大数据概况大数据:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据特征:4V特征Volume(大数据量):90% 的数据是过去两年产生Velocity(速度快):数据增长速度快,时效性高Variety(多样化):数据种类和来源多样化;结构化数据、半结构化数据、非结构化数据Value(价值密度低):需挖掘获取数据价值固有特征时效性不可变性分布式计算:分布式计算将较大的数据分成小的部分进行处理。Hadoop简介Hadoop是一个开

2021-03-30 16:40:15 150

原创 Hadoop高可用集群搭建

高可用集群搭建prepare:1、Hadoop 完全分布式安装2、ZooKeeper 完全分布式环境安装配置HDFS-HA集群1、配置core-site.xml2、配置hdfs-site.xml3、启动HDFS—HA集群4、配置HDFS-HA自动故障转移prepare:1、Hadoop 完全分布式安装2、ZooKeeper 完全分布式环境安装解压安装zookeepertar -zxvf zookeeper-3.4.6.tar.gz → mv zookeeper-3.4.6 zkpr配置v

2021-03-22 17:11:08 65

原创 安装配置Hadoop&搭建集群

安装配置Hadoop&搭建集群1. 给机器添加互信2. 软件准备:3. 安装:4. 配置hadoop:5. 搭建集群1. 给机器添加互信hostname //显示主机名修改主机名称:hostnamectl set-hostname 主机名添加各个机器的地址和主机名:vi /etc/hosts生成密钥:ssh-keygen -t rsa -P ""自己保存密钥:cat ~/.ssh/id_rsa.pub > .ssh/authorized_keys

2021-03-18 19:38:23 141

原创 ELK软件安装与搭建集群

ELK软件安装与搭建集群1. 软件准备2. elasticsearch安装3. head-master安装4.搭建集群节点1. 软件准备2. elasticsearch安装pre:先安装Hadoop-native tar -zxvf hadoop-native-64-2.6.0.tar -C hadoop/lib→ 解压安装 elasticsearchtar -zxf elasticsearch-6.2.2.tar.gz //解压安装mv elasticsearch-6.2.2 es

2021-03-18 17:44:14 152

原创 Linux基本命令

Linux基本命令1. 目录结构2. 目录命令2.vi命令查看文件内容3.用户和用户组1. 目录结构~:家目录(当前用户的目录)/:系统根目录.:当前目录..:上一级目录2. 目录命令绝对路径:路径的写法,由根目录 / 写起,例如: /usr/share/doc 这个目录。相对路径:路径的写法,不是由 / 写起,例如由 /usr/share/doc 要到 /usr/share/man 底下时,可以写成: cd …/man 这就是相对路径的写法。ls (列出目录)ls -a :全

2021-03-18 16:56:44 100

原创 数据源、分层开发、Servlet

数据源、分层开发、Servlet数据源1.概念及作用2.使用数据源获取连接步骤JavaBean分层的组成及作用servlet数据源1.概念及作用概念:javax.sql.DataSource接口负责建立与数据库的连接由Tomcat提供,将连接保存在连接池作用:数据源是用来连接数据库,获得连接(Connection)对象,连接保存在连接池中连接池是由容器提供的,用来管理池中连接对象在程序中使用JNDI获取数据源2.使用数据源获取连接步骤数据源是在tomcat中运行的,需要打开服务

2021-03-10 08:50:52 142

原创 DAO模式与单例模式

DAO模式与单例模式1.DAO模式2.配置文件3.单例模式1.DAO模式概念:Data Access Object(数据存取对象) ,位于业务逻辑和持久化数据之间,实现对持久化数据的访问作用:DAO起着转换器的作用,将数据在实体类和数据库记录之间进行转换优势隔离了数据访问代码和业务逻辑代码隔离了不同数据库实现DAO模式的组成DAO接口规定要实现的方法DAO实现类具体的要操作数据库的方法实体类数据库的表格的每一列作为实体类的私有化属性,属性类型与列属性一致;写出sette

2021-03-08 20:14:20 142

原创 JDBC

JDBC1. jdbc的概念及作用2.JDBC访问数据库步骤:StatementPrepareStatementStatement与PreparedStatement区别1. jdbc的概念及作用概念:Java数据库连接技术(Java DataBase Connectivity),由一组使用Java语言编写的类和接口(JDBC API)组成,它们位于java.sql以及javax.sql中。作用能实现Java程序对各种数据库的访问2.JDBC访问数据库步骤:Statement1.Clas

2021-03-08 19:42:55 74 1

原创 Windows与Linux 安装配置Tomcat

Windows与Linux 安装配置TomcatWindows系统安装配置TomcatLinux系统安装配置TomcatWindows系统安装配置Tomcat下载绿色免安装版Tomcat,解压完成安装配置字符编码进入Tomcat安装路径下,找到conf文件夹→打开server.xml打开server.xml后在如下位置加入:redirectPort=“8443” URIEncoding=‘UTF-8’配置环境变量进入系统变量新增CATLINA_HOME,CATLINA_B

2021-03-05 14:38:13 267

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除