自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

LOGAN'S BLOG

进击的菜鸟 | Java | Python | 大数据 | 后端 | 数据处理 | 数据分析 | 持续学习,持续进步,努力分享优质内容

  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 Sqoop——全量导入、增量导入

Sqoop是许多公司日常使用的业务数据迁移工具,具有多种数据迁移方式,并且支持自定义数据迁移规则,灵活方便,使用时需要根据具体业务的具体需求,配置不同的数据迁移方式数据导入一般情况下公司的各种需求有很多,不仅仅是数据迁移工作,需要结合实际业务全量导入增量导入数据导出...

2020-10-17 17:18:32 2794 1

原创 org.apache.spark.SparkException: Job aborted due to stage failure:Task 1 in stage 0.0 failed 4 times

在运行spark代码时,执行过半报出了如题的异常:只能得知job没有正常执行,但是不知道具体的问题出现在哪里,没法直接看出错误就要去日志查看更详细的错误日志每个application执行的日志都在如下路径中:hadoop安装目录下/opt/apps/hadoop-3.1.1/logs/userlogs/该目录中会列出所有已经执行过的applicationdrwx--x---. 3 root root 52 Oct 14 16:56 application_1602637680764

2020-10-14 19:05:34 40407 1

原创 Flume组件——grouping processor(failover sink processor—实现级联模式下的高可用)

Flume中有多个组件,其中最重要的一个组件就是grouping processor / sink processorsink process

2020-10-08 15:31:51 331

原创 Flume案例——自定义interceptor处理数据,并使用mutilplexing selector将数据分路存储

实际需求:将多个日志文件中的数据分类处理,采集出不同业务的数据,然后分路存储主要知识点:自定义interceptor 使用multiplexing selector将数据分路存储1.模拟日志生成器可以写一个shell脚本,模拟生成日志数据,规定日志数据格式:uid,behavior,type,timestampwhile truedoif [ $(($RANDOM % 2)) -eq 0]thenecho "u$RANDOM,e1,shop,`date +%s`000" &

2020-10-08 09:37:08 307

原创 Flume生产环境配置

1.解压flume到指定文件夹tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /opt/apps2.启动HDFS集群start-dfs.sh3.写脚本模拟日志生产while true ; do echo $RANDOM >> a.log ; sleep 0.01 ; done //循环产生随机数写入到a.log中4.配置flume中agent的相关配置信息a1.sources = r1 --source的名字

2020-10-06 21:20:38 420

原创 HDFS强制退出安全模式

hdfs dfsadmin -safemode leave; //退出安全模式hdfs dfsadmin -safemode forceExit; //强制退出安全模式若使用正常的退出安全模式方法无法生效时,即还是Safe mode is ON就是用强制退出安全模式

2020-10-05 13:03:40 2910

原创 Spark整合hive详细流程

注意点:Spark是完全兼容hive的,若之前hive有自己的元数据库,则spark可以直接使用,若之前没有,则可以用spark创建hive元数据库 元数据库保存的是许多描述信息,也就是数据库和表的各种信息,如数据存储信息、表结构信息等 原始数据保存在HDFS中1.首先要找到hive元数据库在什么位置此时要导入一个配置文件,即将hive-site.xml导入到spark安装目录下的conf文件夹中,在配置文件中设置各种参数hive-site.xml<?xml version=.

2020-10-05 10:56:58 693

原创 SparkSQL案例——用SQL和DSL两种语法格式,求出用户连续登录天数

实验数据:uid,dtguid01,2018-02-28guid01,2018-03-01guid01,2018-03-05guid01,2018-03-02guid01,2018-03-04guid01,2018-03-06guid01,2018-03-07guid02,2018-03-01guid02,2018-03-03guid02,2018-03-02guid02,2018-03-061.SQL风格注意:读取数据:针对不同的文件格式读取数据,获得df 创建.

2020-10-04 12:59:33 539

原创 NoClassDefFoundError: com/fasterxml/jackson/core/exc/InputCoercionException错误解决

执行Spark程序时出现如下错误:Exception in thread "main" java.lang.NoClassDefFoundError: com/fasterxml/jackson/core/exc/InputCoercionException at com.fasterxml.jackson.module.scala.deser.NumberDeserializers$.<init>(ScalaNumberDeserializersModule.scala:48) at

2020-10-04 12:58:44 2592 1

原创 SparkSQL案例——用SQL和DSL两种语法格式,求出用户登录间隔小于10分钟时一段时间内的总累计流量

实验数据:uid,sdt,edt,flow1,2020-02-18 14:20:30,2020-02-18 14:46:30,201,2020-02-18 14:47:20,2020-02-18 15:20:30,301,2020-02-18 15:37:23,2020-02-18 16:05:26,401,2020-02-18 16:06:27,2020-02-18 17:20:49,501,2020-02-18 17:21:50,2020-02-18 18:03:27,602,2020.

2020-10-04 12:57:19 2617

原创 Spark案例 — 按照ip地址规则与日志数据分析各省份各城市出现次数(使用广播变量)

代码编写使用的是scala1.首先定义两个方法ip2Long:将ip地址转为十进制的Long binarySearch:二分查找object Utils { /** * 将 String 类型的 ip 转为 Long 类型的 十进制ip * @param ip * @return */ def ip2Long(ip: String): Long = { //将数据按照 . 分割开 //192.168.5.1 val splited.

2020-09-29 11:54:30 856 2

原创 Hadoop原理之环形缓存区运行机制

环形缓存区是mapreduce中map阶段处理和存储数据的后半段过程,主要负责处理map()方法输出的kv数据实际上,环形缓存区是一个缓存数组,

2020-08-30 14:19:33 825 1

原创 解决使用hive打印无效INFO日志问题

一劳永逸的方法配置hive-site.xml,添加下面配置信息<property> <name>hive.server2.logging.operation.enabled</name> <value>false</value></property>然后重启集群stop-all.shstart-all.sh再开启hive,问题解决!...

2020-08-24 22:40:58 2938 5

原创 Hadoop原理之checkpoint机制

一、什么是checkpoint?简单来说,若不使用HA时,hadoop的checkpoint机制就是主节点的元数据备份机制,通过Secondary Namenode,每隔一段时间将Name Node的元数据更新并备份,然后返回fsimage给Name Node,供其下次启动时读取二、具体原理原理图       首先,有一个主节点Name Node(NN),同时还有一个Secondary NameNode(SNN),可将SNN看作

2020-08-22 09:47:25 2407 1

原创 Hadoop原理之MapReduce运行机制

MapReduce什么是MapReduce?MapReduce的好处两个阶段map阶段reduce阶段什么是MapReduce?MapReduce本身是一种编程思想,它将处理数据分为两步,第一步是Map阶段,即映射阶段,第二步是Reduce阶段,即聚合阶段。这一革命性的思想是谷歌最先提出的,之后诞生的hadoop也运用了这一思想。因此有了基于Hadoop的mapreduce的分布式计算框架,例如后续流行spark和flink也是基于MapReduce思想而开发出的分布式计算框架。MapReduce的好

2020-08-21 23:31:06 317

原创 IDEA安装MAVEN时经常出现的几个问题

由于最近换了新电脑,要给IDEA重新安装MAVEN,结合之前踩过的几个坑,给出一般的解决方案1.关于配置文件出错问题安装maven的时候要在配置文件中更改两个位置的内容,一是本地仓库的位置,二是要配置阿里云镜像,这样下载jar包的速度要快不少。这里必须要知道,阿里现在不支持http下载,改为了https,所以url要使用https协议在官网下载好maven后,放到目标盘符,直接解压,路径中最好不用出现中文,以避免不必要的麻烦修改配置文件:找到X:\apache-maven-3.X.X\conf使用

2020-08-05 17:55:34 462

原创 eclipse中出现的Resource leak解决方法

相信大家都遇到过如下问题虽然这个警告并不会对程序执行产生影响,但出于代码应该简洁正确的原则,还是应该尽量消除这些警告出现该警告的原因:是因为声明了输入流System.in,即数据输入扫描器,错误警告意为:资源泄露,扫描器永远不会关闭。声明以后,系统会自动为其分配相应的内存空间,但在程序运行结束后,并没有对释放这部分内存空间,导致空间一直被占用,这就造成了内存资源的浪费,所以出现警告最常用的解决方法:在main()函数末尾处,也就是程序运行结尾,使用xx.close();函数结束该输入流,从而释放内存

2020-06-28 09:17:47 3026 1

原创 Eclipse常用快捷键和tips(持续补充更新)

常用快捷键提示代码自动补全:alt + /整理代码格式:ctrl + shift + f自动导包 / 删除无用包:ctrl + shift + o快速复制粘贴:ctrl + alt + ↑ / ↓快速移动代码:alt + ↑ / ↓添加 / 取消单行注释:ctrl + /添加多行注释:ctrl + shift + /去除多行注释:ctrl + shift + \删除代码:ctrl + d关闭当前代码窗口:ctrl + w关闭所有代码窗口:ctrl + shift + w查看当前类的

2020-06-24 13:14:31 199

原创 java—运算符详解(看一遍就懂)

运算符一.算术运算符二.赋值运算符三.关系运算符四.逻辑运算符五.位运算符六.三目运算符想详细了解清楚运算符,就先要了解各个名词概念运算:对常量和变量进行操作的过程运算符:对常量和变量进行操作的符号操作数:参与运算的数据表达式:用运算符将常量和变量连接起来组成的式子(不同运算符连接的式子体现的是不同类型的表达式)一.算术运算符算术运算符的运算规则遵循四则运算规律 — 先算小括号,再算乘除,最后算加减运算符    ~~~~ &nb

2020-06-23 23:47:38 468

apache-atlas-2.1.0源码编译包

atlas是apache旗下的元数据管理软件,可以和大部分大数据组件集成,从而管理所有数据信息的元数据,方便后续数据资产的管理,官网只存在源码文件包,此处将源码在linux系统下完成编译,方便各位使用

2020-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除