LOGAN'S BLOG

原创 Sqoop——全量导入、增量导入

Sqoop是许多公司日常使用的业务数据迁移工具，具有多种数据迁移方式，并且支持自定义数据迁移规则，灵活方便，使用时需要根据具体业务的具体需求，配置不同的数据迁移方式数据导入一般情况下公司的各种需求有很多，不仅仅是数据迁移工作，需要结合实际业务全量导入增量导入数据导出...

2020-10-17 17:18:32 2794 1

原创 org.apache.spark.SparkException: Job aborted due to stage failure:Task 1 in stage 0.0 failed 4 times

在运行spark代码时，执行过半报出了如题的异常：只能得知job没有正常执行，但是不知道具体的问题出现在哪里，没法直接看出错误就要去日志查看更详细的错误日志每个application执行的日志都在如下路径中：hadoop安装目录下/opt/apps/hadoop-3.1.1/logs/userlogs/该目录中会列出所有已经执行过的applicationdrwx--x---. 3 root root 52 Oct 14 16:56 application_1602637680764

2020-10-14 19:05:34 40407 1

原创 Flume组件——grouping processor(failover sink processor—实现级联模式下的高可用)

Flume中有多个组件，其中最重要的一个组件就是grouping processor / sink processorsink process

2020-10-08 15:31:51 331

原创 Flume案例——自定义interceptor处理数据，并使用mutilplexing selector将数据分路存储

实际需求：将多个日志文件中的数据分类处理，采集出不同业务的数据，然后分路存储主要知识点：自定义interceptor 使用multiplexing selector将数据分路存储1.模拟日志生成器可以写一个shell脚本，模拟生成日志数据，规定日志数据格式：uid，behavior，type，timestampwhile truedoif [ $(($RANDOM % 2)) -eq 0]thenecho "u$RANDOM,e1,shop,`date +%s`000" &

2020-10-08 09:37:08 307

原创 Flume生产环境配置

1.解压flume到指定文件夹tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt/apps2.启动HDFS集群start-dfs.sh3.写脚本模拟日志生产while true ; do echo $RANDOM >> a.log ; sleep 0.01 ; done //循环产生随机数写入到a.log中4.配置flume中agent的相关配置信息a1.sources = r1 --source的名字

2020-10-06 21:20:38 420

原创 HDFS强制退出安全模式

hdfs dfsadmin -safemode leave; //退出安全模式hdfs dfsadmin -safemode forceExit; //强制退出安全模式若使用正常的退出安全模式方法无法生效时，即还是Safe mode is ON就是用强制退出安全模式

2020-10-05 13:03:40 2910

原创 Spark整合hive详细流程

注意点：Spark是完全兼容hive的，若之前hive有自己的元数据库，则spark可以直接使用，若之前没有，则可以用spark创建hive元数据库元数据库保存的是许多描述信息，也就是数据库和表的各种信息，如数据存储信息、表结构信息等原始数据保存在HDFS中1.首先要找到hive元数据库在什么位置此时要导入一个配置文件，即将hive-site.xml导入到spark安装目录下的conf文件夹中，在配置文件中设置各种参数hive-site.xml<?xml version=.

2020-10-05 10:56:58 693

原创 SparkSQL案例——用SQL和DSL两种语法格式，求出用户连续登录天数

实验数据：uid,dtguid01,2018-02-28guid01,2018-03-01guid01,2018-03-05guid01,2018-03-02guid01,2018-03-04guid01,2018-03-06guid01,2018-03-07guid02,2018-03-01guid02,2018-03-03guid02,2018-03-02guid02,2018-03-061.SQL风格注意：读取数据：针对不同的文件格式读取数据，获得df 创建.

2020-10-04 12:59:33 539

原创 NoClassDefFoundError: com/fasterxml/jackson/core/exc/InputCoercionException错误解决

执行Spark程序时出现如下错误：Exception in thread "main" java.lang.NoClassDefFoundError: com/fasterxml/jackson/core/exc/InputCoercionException at com.fasterxml.jackson.module.scala.deser.NumberDeserializers$.<init>(ScalaNumberDeserializersModule.scala:48) at

2020-10-04 12:58:44 2592 1

原创 SparkSQL案例——用SQL和DSL两种语法格式，求出用户登录间隔小于10分钟时一段时间内的总累计流量

实验数据：uid,sdt,edt,flow1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:50,2020-02-18 18:03:27,602,2020.

2020-10-04 12:57:19 2617

原创 Spark案例 — 按照ip地址规则与日志数据分析各省份各城市出现次数(使用广播变量)

代码编写使用的是scala1.首先定义两个方法ip2Long：将ip地址转为十进制的Long binarySearch：二分查找object Utils { /** * 将 String 类型的 ip 转为 Long 类型的十进制ip * @param ip * @return */ def ip2Long(ip: String): Long = { //将数据按照 . 分割开 //192.168.5.1 val splited.

2020-09-29 11:54:30 856 2

原创 Hadoop原理之环形缓存区运行机制

环形缓存区是mapreduce中map阶段处理和存储数据的后半段过程，主要负责处理map()方法输出的kv数据实际上，环形缓存区是一个缓存数组，

2020-08-30 14:19:33 825 1

原创解决使用hive打印无效INFO日志问题

一劳永逸的方法配置hive-site.xml，添加下面配置信息<property> <name>hive.server2.logging.operation.enabled</name> <value>false</value></property>然后重启集群stop-all.shstart-all.sh再开启hive，问题解决！...

2020-08-24 22:40:58 2938 5

原创 Hadoop原理之checkpoint机制

一、什么是checkpoint？简单来说，若不使用HA时，hadoop的checkpoint机制就是主节点的元数据备份机制，通过Secondary Namenode，每隔一段时间将Name Node的元数据更新并备份，然后返回fsimage给Name Node，供其下次启动时读取二、具体原理原理图首先，有一个主节点Name Node（NN），同时还有一个Secondary NameNode（SNN），可将SNN看作

2020-08-22 09:47:25 2407 1

原创 Hadoop原理之MapReduce运行机制

MapReduce什么是MapReduce？MapReduce的好处两个阶段map阶段reduce阶段什么是MapReduce？MapReduce本身是一种编程思想，它将处理数据分为两步，第一步是Map阶段，即映射阶段，第二步是Reduce阶段，即聚合阶段。这一革命性的思想是谷歌最先提出的，之后诞生的hadoop也运用了这一思想。因此有了基于Hadoop的mapreduce的分布式计算框架，例如后续流行spark和flink也是基于MapReduce思想而开发出的分布式计算框架。MapReduce的好

2020-08-21 23:31:06 317

原创 IDEA安装MAVEN时经常出现的几个问题

由于最近换了新电脑，要给IDEA重新安装MAVEN，结合之前踩过的几个坑，给出一般的解决方案1.关于配置文件出错问题安装maven的时候要在配置文件中更改两个位置的内容，一是本地仓库的位置，二是要配置阿里云镜像，这样下载jar包的速度要快不少。这里必须要知道，阿里现在不支持http下载，改为了https，所以url要使用https协议在官网下载好maven后，放到目标盘符，直接解压，路径中最好不用出现中文，以避免不必要的麻烦修改配置文件：找到X:\apache-maven-3.X.X\conf使用

2020-08-05 17:55:34 462

原创 eclipse中出现的Resource leak解决方法

相信大家都遇到过如下问题虽然这个警告并不会对程序执行产生影响，但出于代码应该简洁正确的原则，还是应该尽量消除这些警告出现该警告的原因：是因为声明了输入流System.in，即数据输入扫描器，错误警告意为：资源泄露，扫描器永远不会关闭。声明以后，系统会自动为其分配相应的内存空间，但在程序运行结束后，并没有对释放这部分内存空间，导致空间一直被占用，这就造成了内存资源的浪费，所以出现警告最常用的解决方法：在main()函数末尾处，也就是程序运行结尾，使用xx.close();函数结束该输入流，从而释放内存

2020-06-28 09:17:47 3026 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人