kaloKu-CSDN博客

原创 Spark 运行产生Unable to acquire xxx bytes of memory 错误解决方法

背景：对单月日志进行分析时（120G左右），生成结果csv文件时 .coalesce(1) .write .mode(SaveMode.Overwrite) .format("com.databricks.spark.csv") .option("header", "true") .save("periodowntop10.csv")**coalesce函数为控制结果文件个数为1 因为有多少个partition 就会在指定目录下生

2020-05-28 11:23:25 4666 1

原创 yarn的调度模式详解

Yarn的调度yarn的默认调度器1：Apache hadoop2.x的默认调度器是Capacity Scheduler(计算调度器)2：CDH的默认调度器是Fair Scheduler(公平调度器)Yarn三种调度策略对比在Yarn中有三种调度器可以选择：FIFO Scheduler ，Capacity Scheduler，FairScheduler。1：FIFO Scheduler...

2020-05-15 09:35:27 1558

原创 spark scala 使用ip2region解析ip地址详细信息

需求场景如下：现需要将ip地址解析并提取对应的省份信息感谢xxh的推荐开源 IP 地址定位库 ip2regionip2region 是准确率 99.9% 的 IP 地址定位库，0.0x毫秒级查询，数据库文件大小只有 2.7M，提供了 Java、PHP、C、Python、Node.js、Golang 的查询绑定和 Binary、B树、内存三种查询算法下载地址：码云git引入maven...

2020-04-23 10:30:05 1218 2

原创 Spark 上下游数据校验及重新处理方法

需求场景如下:上游mysql数据库每天经过sqoop导入hive中的分区表，在导入过程中sqoop偶尔会产生error等问题，导致下游数据与上游数据产生偏差，现在需要方法校验数据，以及对数据进行重跑，考虑过后决定使用重刷的方式进行处理数据质量校验1.先使用count进行数量上的校验，当上下游相同批次数据条数相同时则无需进行处理2.当上下游数据量不同时对下游数据进行重刷数据重刷spa...

2019-12-04 14:44:03 902

原创生产恢复HDFS block块小记

测试文件 test.md上传:-bash-4.2$ hdfs dfs -mkdir /blockrecover-bash-4.2$ echo "test" > test.md-bash-4.2$ hdfs dfs -put test.md /blockrecover-bash-4.2$ hdfs dfs -ls /blockrecoverFound 1 items-rw-r-...

2019-12-02 14:51:42 130

原创 SparkStreamin on yarn 长时间运行作业的提交优化

容错在YARN集群模式下，Spark驱动程序与Application Master（应用程序分配的第一个YARN容器）在同一容器中运行。此过程负责从YARN 驱动应用程序和请求资源（Spark执行程序）。重要的是，Application Master消除了在应用程序生命周期中运行的任何其他进程的需要。即使一个提交Spark Streaming作业的边缘Hadoop节点失败，应用程序也不会受到影响...

2019-07-26 15:52:39 388

原创 CDH平台常用操作简介（5.12版本）

1.CDH启动/关闭1.1启动CDH1：先启动Mysql service mysql start2：hadoop001再启动Server：/opt/cloudera-manager/cm-5.12.0/etc/init.d/cloudera-scm-server start3：hadoop001-003再启动Agent:/opt//cloudera-manager/cm-5.12.0/et...

2019-07-11 14:15:33 1242

原创 SparkSQL 读取mysql大表速度过慢解决方法

问题背景在使用sqarksql.read读取mysql表时(大约为2400万条左右） val scholarDF = spark.read .format("jdbc") .option("url", "jdbc:mysql://192.168.60.49:3306/test") .option("dbtable", "scholar_2") .o...

2019-07-08 12:13:00 5282

原创 Spark 从Cache与Persist入手，浅谈缓存类别的关系与区别

我们为什么要在spark中使用Cache？我们先做一个简单的测试读取一个本地文件做一次collect操作:（仅做测试用，生产中使用collect容易发生driver OOM等问题，不推荐使用）val rdd=sc.textFile("file:///home/hadoop/data/input.txt")val rdd=sc.textFile("file:///home/hadoop/dat...

2019-07-03 16:12:50 202

原创 SparkStreaming+kafka 外部数据源保存offset实例（MySQL）

MySQL创建存储offset的表格mysql> use testmysql> create table hlw_offset( topic varchar(32), groupid varchar(50), partitions int, fromoffset bigint, untiloffset ...

2019-07-01 15:52:42 353

原创 SparkSQL 操作常用外部数据源小结（二）

Hive数据源 Apache Hive是Hadoop上的SQL引擎，Spark SQL编译时可以包含Hive支持，也可以不包含。包含Hive支持的Spark SQL可以支持Hive表访问、UDF(用户自定义函数)以及 Hive 查询语言(HiveQL/HQL)等。需要强调的一点是，如果要在Spark SQL中包含Hive的库，并不需要事先安装Hive。一般来说，最好还是在编译Spark ...

2019-06-27 14:47:20 126

原创 SparkSQL 操作常用外部数据源小结（一）

通用加载/保存方法手动指定选项Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册为临时表之后，就可以对该DataFrame执行SQL查询。Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时，Spark SQL可以方便的执行所有的操作。修改配置项spar...

2019-06-26 10:13:32 197

原创 hadoop 常用linux命令

单独启动和关闭hadoop服务启动名称节点：hadoop-daemon.sh start namenode启动数据节点：hadoop-daemons.sh start datanode slave启动secondarynamenode：hadoop-daemon.sh start secondarynamenode启动resourcemanager：yarn-daemon.sh st...

2019-06-25 18:16:48 383 1

原创 SparkSQL 解析XML文件并在UDF中传入Map[]类型的参数

需求场景如下：有一份xml文件存储着中图分类号-----> 教育部分类号的映射关系部分如下图所示现在需要解析这份xml文件，并根据对应的映射关系，将DF中的中图分类号映射为相应的教育部分类号1：spark解析xml文件maven中导入spark-xml对应的依赖 <dependency> <groupId>com.d...

2019-06-25 11:32:11 1607

原创 spark 构建自增id列遇到的问题及解决方法

使用场景在为总行数为2400的单字段机构列表创建递增的id列时如图：在使用如下代码时// 使用 monotonically_increasing_id()函数构建自增id列 val lin5 =sc.textFile("file:///spark//headings//unitName1.txt") .toDF("unit_name") .withColumn(...

2019-04-17 12:35:13 968

原创 shell编程常用基本功能

1.在shell编程之前①:关于shell：shell通常以.sh结尾，但.sh结尾的并不一定是可执行脚本②:shell脚本头文件一般以 #!/bin/bash开头③:在完成shell文件的编写后，需要为脚本文件赋予权限才可执行通常为 chmod +x xxx.sh 或者 chmod 775 xxx.sh2.shell脚本Debug模式通过-x参数进入Debug模式即sh -x xx...

2019-04-15 15:18:51 943

原创 hadoop HA架构模式

1.为什么要使用hadoop HA部署① 当使用非HA部署方式时，只有一个NN（namenode），当该namenode 即整个集群的master宕机时，整个集群将会面临短期内乃至长期无法访问的窘境直到问题解决②非HA部署方式时，使用的是SNN的时间为一小时checkpoint机制，无法做到灵活切换，即高可用，所以要使用HA方式部署2.hadoop HA部署整体思路①部署两个namenod...

2019-04-03 23:51:03 205

原创 HDFS架构原理思想及各模块功能简述

1：架构原理2 block(块)解析块的大小128M 块的副本数3 <property> <name>dfs.blocksize</name> <value>134217728</value></property><property> <n

2019-02-23 16:53:02 1983

原创 hadoop hdfs单节点简易部署（二）

5.配置ssh localhost无密码信任关系[hadoop@hadoop002 ~]$ ssh-keygenGenerating public/private rsa key pair.Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): Created directory '/home/hadoop/.ssh'...

2019-02-23 16:34:00 219

原创 hadoop hdfs单节点简易部署（一）

1.创建用户和上传hadoop软件：useradd hadoopsu - hadoop[hadoop@hadoop002 ~]$ mkdir app[hadoop@hadoop002 ~]$ cd app/[hadoop@hadoop002 ~]$ wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar....

2019-02-23 16:30:06 568

原创以简单场景为基础归纳mysql基本语法

以简单场景为基础归纳mysql基本语法1.创建需要用到的表并填充测试数据：--部门表dept部门表(deptno部门编号/dname部门名称/loc地点)create table dept ( deptno numeric(2), dname varchar(14), loc varchar(13));insert into dept values (10,...

2019-02-13 18:32:19 153

原创 MySQL部署及相关问题

MySQL部署及相关问题1.关于mysql：RPM: 学习测试快速部署tar: 定制化企业级https://github.com/Hackeruncle/MySQL/blob/master/MySQL 5.6.23 Install.txtRPM安装:yum install -y mysql-server.x86_64yum install -y mysql.x86_64se...

2019-02-13 17:11:58 142

原创 linux基本命令（三）

Linux基本操作命令（三）1.文本编辑操作及相关快捷键：vi 文本编辑vi xxx.log命令行模式常见快捷键:dd 删除当前行dG 删除光标以下的所有行ndd 删除光标以下的n行gg 跳转到第一行的第一个字母G 跳转到最后一行的第一个字母shift+$ 行尾2.清空文件并重新编辑：命令模式下gg dG3.追加写入新内容：命令模式下G shift+$ i...

2019-02-13 16:37:02 85

原创 linux基本命令（二）

Linux基本操作命令（二）1.用户与用户组相关命令：[root@hadoop001 ~]# useradd ruoze 自动创建一个用户组[root@hadoop001 ~]# id ruozeuid=501(ruoze) gid=501(ruoze) groups=501(ruoze) [root@hadoop001 ~]# gid 主组 groups 所有组2.设置...

2019-02-13 11:58:40 105

原创 linux基本命令（一）

Linux基本操作命令（一）1.查看当前光标所在的路径：pwd 2.切换目录：cd 家目录cd ~ 切换到家目录cd - 切换到上一次目录cd ../ 切换到上一层目录cd ../../ 切换到上2层 ../../3.打印文件与查看文件夹相关信息：ls -l ==&gt; ll 别名 ls -l -a ==&gt; ls -la 查看隐藏文件 ...

2019-02-13 11:41:45 91

王天一的博客