批处理框架
Spark、Hadoop、Flink等
兀坐晴窗独饮茶
我的个人博客 http://knightzz.cn/
展开
-
Kylin踩坑笔记 - 启动 Kylin 报错 org/apache/commons/configuration/ConfigurationException
解决办法下载 下面两个包commons-collections-3.2.2.jarcommons-configuration-1.30.jar下载 方式 , 下面是这两个包的依赖, 使用maven下载即可<!-- https://mvnrepository.com/artifact/commons-collections/commons-collections -->&l...原创 2019-10-27 22:13:51 · 3621 阅读 · 3 评论 -
Kylin学习笔记 - 使用Java模拟生成测试数据
生成数据展示emp 表dept 表创建表的 sql 语句create external table if not exists default.dept( deptno string, dname string, loc string)row format delimited fields terminated by '\t' create e...原创 2019-10-28 20:26:02 · 1019 阅读 · 0 评论 -
Kylin学习笔记 - CDH6.2集群 kylin2.6.4 环境搭建
软件要求Hadoop: 2.7+Hive: 0.13 - 1.2.1+HBase: 1.1+Spark (可选) 2.1.1+Kafka (可选) 0.10.0+JDK: 1.7+OS: Linux only, CentOS 6.5+ or Ubuntu 16.0.4+开始安装1.下载安装包wget http://mirrors.tuna.tsinghua.edu.cn/apa...原创 2019-10-27 18:36:57 · 921 阅读 · 0 评论 -
Kylin踩坑笔记 - /developer/apache-kylin-2.6.2-bin/tomcat/conf/.keystore (No such file)
报错情况java.io.FileNotFoundException: /developer/apache-kylin-2.3.0-bin/tomcat/conf/.keystore (No such file or directory)解决办法进入到 Kylin 目录下的 tomact 下 的conf , 然后打开 server.xml 文件cd /opt/apache-kylin-2....原创 2019-10-27 21:58:10 · 1239 阅读 · 0 评论 -
Kylin踩坑笔记 - 启动Kylin出现Could not find or load main class org.apache.hadoop.hbase.util.GetJavaProperty
参考 :kylin问题https://issues.apache.org/jira/browse/KYLIN-3564解决方法1.执行如下命令 (注意 我的路径只作为参考, 不要复制粘贴) vim /opt/cloudera/parcels/CDH/lib/hbase/bin/hbase/opt/cloudera/parcels/CDH/lib/hbase/lib/*2.找...原创 2019-10-27 17:55:37 · 3012 阅读 · 0 评论 -
Hadoop学习笔记(1) - Hadoop2.7环境搭建教程
一. 集群规划1.1 集群节点分配注意 : 可以根据自己电脑配置调整 , 如果配置比较低就少配置几台子节点主机名主机IPmaster192.168.100.100slave1192.168.100.101slave2192.168.100.102slave3192.168.100.10031.2 软件版本软件名称软件版本...原创 2019-12-10 14:05:43 · 494 阅读 · 0 评论 -
从零开始学习Hadoop - Gzip , BZip2 , Lzo Snappy 四种方式的优缺点 和使用场景
Gzip 优点压缩解压速度快 , 压缩率高 , hadoop本身支持 处理压缩文件时方便 , 和处理文本一样 大部分linux 系统自带 Gzip 命令 , 使用方便缺点不支持切片使用场景文件压缩后在130M以内 (一个块大小) , 都可以使用 GZip 压缩(因为Gzip唯一的缺点是不能切片) 总结 : 不需要切片的情况下 可以使用 BZip2 优点压...原创 2019-02-22 21:38:38 · 5391 阅读 · 4 评论 -
【Hadoop】- MR的架构以及 1.0 和 2.0版本优缺点分析
MR的架构以及缺点分析1.0 版本 Hadoop - 2011MR的缺点 :不适合进行迭代计算MR过程中涉及到磁盘的读写, 所以性能很慢MR 和 Hadoop 耦合性比较强, MR无法运行在其他平台上, Hadoop 上也无法运行其他框架2.0 版本 Hadoop - 2013新增 : YarnDriver :编写 MR 代码的 Driver类 用于控制mr任务的提交R...原创 2019-09-17 19:50:44 · 2224 阅读 · 0 评论 -
【问题解决】Hadoop 常见问题汇总
Hadoop常见问题任何配置文件的修改尽量先关闭集群 centos无网络重启network.service显示以下情况原因 :NetworkManager是fedora上的一个网络地址服务,它会自动地检测目前网络上的设置,并自动修改设置文件的内容,如无线网络的检测等。但当它无法识别时,就会产生无法联机的状况,因此建议将NetworkManager停用...原创 2019-01-10 17:22:59 · 465 阅读 · 0 评论 -
【问题解决】Hadoop 执行 MapReduce卡死 问题
运行MapReduce 卡死 , 截图如下1.如果是在 虚拟机配置的 Hadoop直接 编辑 yarn-site.xml 文件<property> <name>yarn.nodemanager.resource.memory-mb</name> <value>2048</value></property...原创 2019-05-29 19:07:02 · 3214 阅读 · 3 评论 -
Hadoop踩坑笔记 - NodeManager from sht-sgmhadoopdn-04 doesn't satisfy minimum allocations, Sendin
报错情况启动时 出现 Nodemanager 无法启动, 查看日志 发现报错如下 :org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from Reso...原创 2019-12-16 13:47:15 · 273 阅读 · 0 评论 -
Hadoop学习笔记 - hdfs的读写流程分析
Hadoop - 对hdfs文件读写流程分析一. 读数据1.1 读数据流程分析图1.2 读数据步骤1.2.1 请求阶段HDFS客户端向NameNode请求读取 路径为/hdfs/data/a.txt的文件NameNode 根据请求路径查询该文件是否存在, 若存在返回其对应的元数据信息1.2.2 读取阶段HDFS客户端根据返回的元数据信息去DataNode请求读取对...原创 2020-02-17 22:05:04 · 220 阅读 · 0 评论 -
Kafka踩坑笔记 - SparkStreaming连接 Kafka出现KafkaConsumer is not safe for multi-threaded access错误
问题描述今天在使用 SparkStreaming消费kafka数据的时候, 出现了这个错误, 很莫名其妙去百度查了下, 发现这个错误是因为由于需要定时启动Kafka consumer拉取数据,第一次启动后,没有关掉线程。但Kafka consumer是非线程安全的,第二次消费数据时会报错:java.util.ConcurrentModificationException: KafkaCo...原创 2019-12-06 20:09:52 · 1605 阅读 · 0 评论 -
从零开始学习Spark - SparkRDD、SparkDStream与HBase交互
一. SparkRDD 与 HBase的交互1.1 依赖配置以及注意事项1.1.1 特别注意建议参考 2.3 添加数据 - put的使用里面的处理方法1.1.2 POM 文件<properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target>原创 2019-12-01 17:04:11 · 908 阅读 · 3 评论 -
Spark踩坑笔记(1) - Caused by: java.lang.ClassNotFoundException: org.apache.spark.streaming.dstream.DStre
报错描述今天在用SparkStreaming 消费kafka的数据时候报了这个错, 感觉很莫名其妙, 因为这个错误一般是找不到这个类的时候才会报, 但是我很肯定我这个类的jar报是引入了的, 然后猛然想起, 可能是我依赖范围设置的有问题, 然后赶紧查看了依赖范围果然将 provide 改为 Compile 即可这里总结下 maven的依赖范围, 给自己提个醒, 以后需要注意Scope ...原创 2019-11-26 16:42:53 · 964 阅读 · 0 评论 -
从零开始学习Saprk - 32种Saprk算子详解(完整版)
一.Transform类型算子1.1 Value 类型1.1.1 map 算子介绍 :返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 ,也就是说RDD中每个元素都会执行一次这个方法代码 : // 创建SparkConf 设置本地运行模式 val conf = new SparkConf() .setMaster("local[1]") .setAppName("MapOperator") // 创建SparkContext val原创 2019-11-17 18:43:31 · 793 阅读 · 1 评论 -
Spark踩坑笔记(2) - RuntimeException: java.net.NoRouteToHostException:没有到主机的路由
问题执行 Spark 任务的时候 出现RuntimeException: java.net.NoRouteToHostException:没有到主机的路由我的原因是 防火墙没关 !! 关闭防火原创 2019-10-08 20:04:05 · 497 阅读 · 0 评论 -
Spark踩坑笔记(3) - 使用 SparkSession 导入 import spark.implicits._ 报错
1. 报错今天干了一件很傻屌的事 , 当然也是知识面不足 , 导入 import spark.implicits._ 出现了问题我把 spark 当做了一个包 , 没想到它其实是一个 SparkSession的对象 ,注意上图 : SparkSession 对象名是 SparkSession , 不是 spark , 改成sparkSession 即可…import spark.imp...原创 2019-06-05 23:30:00 · 9158 阅读 · 5 评论 -
【完美解决】- 开启Spark-Shell时卡死 , 或者端口占用 的解决方法
报错信息错误原因 : 一般是错误的退出spark-shell 比如使用 Ctrl + C解决方法输入命令 : netstat -npl | grep 4040使用 kill -9 进程编号 关闭 占用端口输入 ps -ef | grep spark-shell使用 kill -9 进程编号 关闭 spark-shell的进程即可...原创 2019-06-02 23:25:10 · 3738 阅读 · 2 评论 -
【Spark SQL】- 自定义结构的DataFrame和 Dataset
1.步骤分析读取的 people.txt 文件内容 Michael, 29 Andy, 30 Justin, 19 第一步 读取文件 创建RDD // 创建一个RDD JavaRDD<String> peopleRDD = spark.sparkContext() //...原创 2019-05-30 00:17:57 · 876 阅读 · 0 评论 -
【Spark SQL】- RDD DataFrame Dataset 三者的优缺点 , 三者之间的创建 , 以及相互转换
一.简单介绍1.RDDRDD 是一个懒执行(只有当遇到action算子时才会真正的开始执行)的不可变的的 可以支持 lambda 表达式 的并行数据集RDD 的最大优势就是简单 , 毕竟容易上手RDD 的 劣势在于 , 它是一个存在于 JVM 内存中的对象 , JVM 内存是计算机内存划分的一块空间 , 所以它受到 Gc (JVM 自己的垃圾处理器 , 用来回收一些不用的对象 , 但是 ...原创 2019-05-28 21:46:16 · 2719 阅读 · 0 评论 -
【Spark SQL】- 读取数据并进行一些简单的查询
1.测试数据文件名 : people.json内容 :{"name":"Michael", "age":12}{"name":"Andy", "age":30}{"name":"Justin", "age":19}{"name":"kafak", "age":19}这里我是在IDEA本地运行的 代码 所以Master我设置的是 Local2 .代码创建SaprkSessi...原创 2019-05-26 15:30:32 · 2132 阅读 · 0 评论 -
【完美解决】- IDEA运行SparkSql代码 出现 java.lang.NoClassDefFoundError: org/apache/spark/sql/AnalysisException
1.报错java.lang.NoClassDefFoundError: org/apache/spark/sql/AnalysisException at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Class.java:2701) at ja...原创 2019-05-26 08:31:00 · 9567 阅读 · 3 评论 -
【SparkSQL】- 连接 Hive 报错 SparkSession with Hive support because Hive classes are no
报错信息ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging only errors to the console.Exception in thread "main" java.lang.IllegalArgumentException: Unable to i...原创 2019-09-26 16:50:23 · 1741 阅读 · 1 评论 -
Spark学习笔记(3) - 关于Spark常用的transform算子的一些总结⭐️⭐️⭐️
RDD 常用 transform 算子原创 2019-07-28 12:54:02 · 448 阅读 · 0 评论 -
Spark学习笔记(1) - Spark运行模式 以及模块介绍 ⭐️⭐️⭐️
第一章 - Spark概述Read Me ⭐️原创 2019-07-28 12:50:50 · 252 阅读 · 0 评论 -
Spark学习笔记(2) - 关于SaprkRDD基本原理的个人理解 ⭐️⭐️⭐️
第二章 - SparkCore RDDRead Me原创 2019-07-28 12:50:22 · 167 阅读 · 0 评论 -
【Spark SQL】- RDD、DataFrame、Dataset三者之间相互转换 ⭐⭐⭐
1 . 转换方法DataFrame 、Dataset 转 RDDRDD 转 DataFrameRDD 转 DatasetDataset 转 DataFrameDataFrame 转 Dataset2. 代码案例原创 2019-06-07 21:50:25 · 396 阅读 · 0 评论