簡箪-CSDN博客

转载 Spark使用get_json_object的问题

一、问题现象：使用spark sql调用get_json_object函数后，报如下错误：yarn 容器被kill，导致任务失败，查看日志：Container killed by YARN for exceeding memory limits使用spark命令：/opt/software/spark-2.2.0-bin-hadoop2.6/bin/spark-sql \--master ...

2019-09-18 12:30:08 6957

原创 IDEA 搭建Spark2.4.3源码开发

准备环境个人事先准备的环境有jdk1.8Scala2.11.12maven3.6.1下载在官方的git可以下载到spark的源码官方git由于官方git更新的并不是稳定最新版本的，因此我们需要去releases找到我们需要的版本：https://github.com/apache/spark/releases/tag/v2.4.3下载到本地，解压缩然后更改pom文件中的配置po...

2019-08-29 16:08:15 562

原创 Hbase 部署

下载指定跟你Hadoop相同的版本，我这里用的是cdh的5.7系列解压tar -zxvf hbase-1.2.0-cdh5.7.6.tar.gz -C ~/app然后到指定的app目录下查看配置环境变量vi .bash_profile添加export HBASE_HOME=/home/hadoop/app/hbase-1.2.0-cdh5.7.6export PATH=$...

2019-07-15 18:57:26 181

原创 Spark SQL 2

DataFrame详解DataFrame与RDD之间的差异DataFrame的特性在使用Python进行数据分析时，一般都是使用pandas这个类库来对数据进行包装的，而其中的数据都是以DataFrame这种对象的形式统一呈现出来。同样的SparkSQL中也提供了DataFrame这种类来对数据进行封装并为我们的编程提供了统一的API。DataFrame是一个类似于2维表的数据类型，其有着...

2019-05-30 15:23:03 243

原创 ntelliJ中配置连接MaxCompute项目空间Access Id、Access Key、Project Name填写

阿里云官方的项目空间链接有一步添加akid和密码有点坑原文：https://help.aliyun.com/document_detail/50855.html?spm=a2c4g.11186623.2.22.4eec75c4a5KKve有点坑的是这一步其实完全可以不用管上边的配置文件和账号，只要将下边带星号的填上就好了ID和key都在控制台的accesskeys中填写完毕后找到你...

2019-05-22 12:42:25 960

设置key用来进行hash取模来确定分区，并且，这个再kafka源码是存在的，就在DefaultPartitioner.java中通过源码我们可以发现，再源码中默认的key为空，则系统会运算出一个partition，如果用这种方式，那么，就会导致分区内有序而分区无序，会导致数据无序，因此，要指定一个key值，也就是指定分区，这样的话，同一个数据发送到同一个分区，而多个分区依旧可以并行，同时实现...

2019-04-15 11:20:28 2478 2

转载 CDH 部署准备

现在随着大数据的广泛应用和框架的不断升级，我相信做过大多数程序员都会遇到，版本冲突的问题，CDH 就是为了解决各个不同的大数据框架之间的冲突问题，以及提供一套简洁的安装界面1.选择版本cloudera官网地址，进入官网地址之后，可以选择你需要安装的CDH的版本，这里我一CDH5.15.2 举例。在CDH 5.15.2 界面中可以看到安装文档，主要包括的就是对应支持的系统类型及其版本，J...

2019-03-26 10:42:37 174

原创 Maxwell部署

Maxwell是作为中间件的存在，因此部署之前需要环境，这里用MySQL读到Maxwell生成json串下载官网或者git下载或者直接在Linux上wget tar包我这里下载到了Hadoop用户下software中（个人一直将这些tar包放在一个目录下）修改MySQL的配置更改my.cof 下的binlog_format 为ROW 类型然后创建 maxwell的数据库，刷新权限等...

2019-03-25 18:00:52 670 2

转载 Spark on yarn 警告消除

1.导读从spark官网中我们可看到spark running-on-yarn 上的话只需要将master指定为yarn即可,但是在on yarn的时候,有可能会报出如下两处警告警告一:18/12/25 00:34:51 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... usin...

2019-03-12 16:24:02 300

原创 SparkSQL 1

SparkSQL什么是SparkSQL首先看官网的描述官网地址：http://spark.apache.org/sql/我们先简单了解下官网是怎么描述SparkSQL这个东西的：Spark SQL is Apache Spark’s module for working with structured data. 根据官网的描述就是Spark SQL是Spark的一个模块用来处理结构化数...

2019-03-11 14:21:57 182

原创 Spark 核心 5

Spark序列化&Spark配置读取序列化简单案例我们之前读取的文件都是文本文件，所以我们是使用textFile这个算子来读取文件所有的路径的，但是如果我们要读取的是一个序列化后的文件，我们就不能使用这个算子来读取了。我们就该用sequenceFile这个算子。val file = sc.sequenceFile[BytesWritable,String]("") val ...

2019-03-06 17:48:04 130

原创 Spark 核心4

RDD的操作RDD的Persistence官网的具体网址：https://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistence我们已经知道RDD的transformation是一个lazy操作，只有当遇到一个action时才会触发真正的代码执行。但是我们平时所写的代码中我们主要都是一些transform...

2019-03-05 17:12:16 149

原创 Spark 核心 3

Spark入门理解Spark的基本术语及结构这里，我也是先贴出Spark的官网地址来：https://spark.apache.org/docs/latest/cluster-overview.html术语这里是官网上对术语的解释的一张截图，我们来对一些基础的数据进行研读：Application：从官网上我们可以这么理解，这是一段通用的程序构建在spark上的，将会由driver和exe...

2019-03-04 15:01:40 134

原创 Spark核心 2 RDD编程

之前我们把RDD讲解了一下，这篇文章就进行简单的使用这里例用官方文档进行解读：http://spark.apache.org/docs/latest/rdd-programming-guide.html在IDEA中创建Spark应用程序在IDEA中添加了spark以后，我们就可以在spark classes 中添加依赖了：import org.apache.spark.SparkConte...

2019-02-25 17:43:38 305

原创 Spark 核心 01 RDD

Spark的基础知识Spark中最核心的是什么，是RDD那什么是RDD，虽然spark官网也给出了一些解释，但是还是源码是根本，所以我们还是从源码来看所以，这里我贴出官方GitHub上的RDD源码来一探究竟：https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/rdd/RDD.sca...

2019-02-22 16:33:54 175

原创 Spark 编译

首先什么是Spark上面是官网的截图，第一句话就说了：spark是一个应用于大数据的分析引擎因此，spark是一个用于数据处理的执行引擎速度上面图中很明确的体现了Spark的速度官方给出的速度是Hadoop的100倍，当然，这个数据并不是绝对的，但是在绝大部分情况下的确是Spark要比Hadoop快，而原理上来讲其实主要是Hadoop的计算是由MapReduce担当的，而MapRedu...

2019-02-20 16:53:12 372

原创 Scala造数据（测试用）

之前我发了一篇用python造数据的代码，现在用scala造数据（毕竟学习大数据不能不用scala）添加了命令行输入行数，增加了IP字段注意，里边的IP， URL都是之前定义的数据，可以自己写，也可以直接上网找IP库，为了调整方便做成的外部数据源输入import java.io.{File, PrintWriter}import scala.collection.mutable.Arra...

2019-01-03 11:08:04 862

原创 Python造数据（测试用）

大数据经常需要进行测试，然而需要手动建立测试用数据，以下就是我利用python实现的简单造日志数据import random'''url time traffic http://ruozedata.com/basic.html [2018-12-0...

2018-12-24 15:52:19 4695

转载 hadoop SequenceFile详解

1. 什么是SequenceFile1.1.sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。1.2.可以把SequenceFile当做是一个容器，把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。1.3.SequenceFile文件并不按照其存储的Key进行排序存储，Sequenc...

2018-12-24 15:39:59 510

原创 Hive使用之通过sqoop倒数据——sqoop安装

在大数据领域里面我们一直都是使用Hadoop来处理和存储数据的，但是有的时候我们需要将处理完的数据返回给前端UI来展示给我们的用户，但是如果让前端直接来访问我们的hdfs来拉取数据的话，这效率真的不敢想象。所以我们需要将我用Hadoop/Spark处理完的数据重新放置回RBDMS里面去，那么怎么将HDFS上面的数据传输回RBDMS上面呢？难道每次都先get到本地然后再写入数据库里面？这个时候肯定有...

2018-12-21 11:26:29 237

原创记一次maven plugin报错——java.lang.NoSuchMethodError: org.eclipse

我在使用maven 进行scalajdbc操作的时候，将mysql和jdbc相关写入到pom中下载过程出错查看日志发现以下问题上网查找之后发现是mavenjar包丢失，于是我换了以下镜像地址，从新下载，然而还是同样报错于是我上maven官网进行查看plugin相关，发现maven eclipse plugin 已经不再维护，并且官网下载地址全部失效,而官网推荐使用的m2e查了一下发是在ec...

2018-12-17 16:41:54 472

原创 Hadoop支持LZO

首先需要配置环境yum -y install lzo-devel zlib-devel gcc autoconf automake libtool下载lzo包wget www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz解压tar -zxvf lzo-2.06.tar.gz -C ~/app然后进入到目录中执行以...

2018-12-11 23:43:23 893

原创 HADOOP编译

我使用的Hadoop版本是2.6.0-cdh5.7.0的源码进行编译首先解压Hadoop源码到指定位置tar -xzvf hadoop-2.6.0-cdh5.7.0-src.tar.gz -C ~/source/

2018-12-08 15:51:25 118

原创 Hive使用之DDL

Hive既然已经可以使用了，但是这里就会有个问题，默认的数据库是放在那里的这里可以发现Hive有个默认的数据库default，它在HDFS的/user/hive/warehouse这个路径下，也就是说你创建一个路径默认的数据库就会在/warehouse下边。这里可以由参数hive.metstore.warehouse.dir来控制，只需要在hive输入set hive.metastore.war...

2018-12-06 15:48:46 215

原创 Hadoop HA----YARN的HA架构

其实从本质上来说，YARN的HA跟HDFS的HA还是很相似的先来思考一下伪分布式架构下的Yarn是怎么样的。主从结构，两个进程：RM和NM。ResourceManager和NodeManager，其中ResourceManager里还有两个部分：ApplicationsManager和ResourceSchedule，前者负责监控在NM上的所有ApplicationMaster的情况，后者主要监...

2018-11-29 16:27:12 192

原创 Hadoop HA----HDFS的HA架构

在这里我们首先回顾一下我们在时候伪分布式学习时的HDFS的架构设计。在同一个机子上我们有三个进程，分别是NameNode，DataNode，SecondaryNameNode。其中，DataNode就是进行数据管理的节点，其会定期将其保存的数据与相应文件的对应关系(就是blockreport)和这个节点的心跳包发送到NameNode节点上，HA和伪分布式上的DataNode的功能都是一致的。这里我...

2018-11-29 16:06:24 425

原创 Hadoop HA集群搭建

本地的Hadoop为分布式搭建已经完成了，正常的生产上需要用到的是高可用集群，因此需要Hadoop HA的搭建在此我使用阿里云主机建立了3个实例进行Hadoop HA的集群搭建首先在本地查看是否可以ping通，然后利用Xshell或者其他软件进行远程SSH连接进行操作，我用的是MobaXterm（个人觉得还是比较好用的）首先，一般公司不会给你root用户，最多给你一个sudo权限的用户进...

2018-11-27 16:51:29 127

原创 Hadoop集群启动失败，提示Name or service not knownstname

在hadoop配置完成后启动集群发现datanode启动失败提示在这里有可能是因为在windows系统中编辑的slaves文件传输到Linux中后是以dos文件存在的这样导致了slaves文件被污染，需要手工改动成unix文件dos2unix slaves如果没有的话yum安装一下转换后再次启动或关闭时就不会报错了...

2018-11-27 16:30:11 1657

原创 SSH 多机器无密码访问

利用阿里云3台主机进行无密码访问为Hadoop集群搭建做基础首先进入hadoop用户然后ll -a查看隐藏文件我们发现里边有个.ssh文件夹，但是没什么用，所以rm -rf .ssh删除文件夹再用ssh-keygen生成密钥然后我们选取第一台为主，将剩下两台的公钥发送给第一台然后生成authorized_keys文件并且将pub,2,3追加到里边cat id_rsa.pub &...

2018-11-26 18:13:41 229

原创 Hadoop理论——hdfs读、写流程

在Hadoop中我们一定会使用hdfs的传输，那么，hdfs的读写流程究竟是什么，我利用了一点时间整理了一下hdfs写流程1，客户端client调用DistributedFileSystem这个对象的create方法去和NameNode这个节点进行rpc通信，然后NameNode来检查create这个方法所传输过来的hdfs_path这个路径是否已经存在以及是否有这个权限在这个路径里创建文件，...

2018-11-14 09:51:29 214

转载 JVM调优手册之六：JVM参数设置及分析

不管是YGC还是Full GC,GC过程中都会对导致程序运行中中断,正确的选择不同的GC策略,调整JVM、GC的参数，可以极大的减少由于GC工作，而导致的程序运行中断方面的问题，进而适当的提高Java程序的工作效率。但是调整GC是以个极为复杂的过程，由于各个程序具备不同的特点，如：web和GUI程序就有很大区别（Web可以适当的停顿，但GUI停顿是客户无法接受的），而且由于跑在各个机器上的配置不同...

2018-11-13 17:56:53 162

转载 JVM快速调优手册之八: GC插件+错误"not supported for this jvm"+命令jstatd

1.插件安装tools->plugin->Available Plugin 会有值得安装的插件，如：VisualGC插件列表:https://visualvm.dev.java.net/plugins.html注意：上面提供的端口配置有些麻烦，不如直接这样做：2.要使用 VisualGC 必须在远程机上启动jstatd代理程序，否则会显示 “not supported fo...

2018-11-13 17:00:57 1004

转载 JVM快速调优手册之七：Java程序性能分析工具JavaVisualVM（Visual GC）

VisualVM 是一款免费的\集成了多个JDK 命令行工具的可视化工具，它能为您提供强大的分析能力，对 Java 应用程序做性能分析和调优。这些功能包括生成和分析海量数据、跟踪内存泄漏、监控垃圾回收器、执行内存和 CPU 分析，同时它还支持在 MBeans 上进行浏览和操作。在内存分析上，Java VisualVM的最大好处是可通过安装Visual GC插件来分析**GC（Gabage Col...

2018-11-13 16:22:31 469

转载 JVM快速调优手册之五：ParNew收集器+CMS收集器的产品案例分析（响应时间优先）

一.服务器:-双核,4个cores; 16G memory[root@alish2-cassandra-01 ~]# cat /proc/cpuinfo | grep "cpu cores"cpu cores : 2cpu cores : 2二.公式简述:响应时间优先的并发收集器，主要是保证系统的响应时间，减少垃圾收集时的停顿时间。适用于应用服务器、电信领...

2018-11-13 16:07:37 1150 1

转载 JVM快速调优手册之四：堆内存分配的CMS公式解析

一.JVM 堆内存组成Java堆由Perm区和Heap区组成，Heap区由Old区和New区（也叫Young区）组成，New区由Eden区、From区和To区（Survivor）组成。Eden区用于存放新生成的对象。Eden中的对象生命不会超过一次Minor GC。Survivor Space 有两个，存放每次垃圾回收后存活的对象，即图的S0和S1。Old Generation Old区...

2018-11-13 15:46:19 585

转载 JVM快速调优手册之三：内存分配策略

内存分配策略了解GC其中很重要一点就是了解JVM的内存分配策略：即对象在哪里分配和对象什么时候回收。Java技术体系中所提倡的自动内存管理可以归结于两个部分：给对象分配内存以及回收分配给对象的内存。我们都知道，Java对象分配，都是在Java堆上进行分配的，虽然存在JIT编译后被拆分为标量类型并简介地在栈上进行分配。如果采用分代算法，那么新生的对象是分配在新生代的Eden区上的。如果启动了...

2018-11-13 15:40:10 136

转载 JVM快速调优手册之二：常见的垃圾收集器

如果说收集算法是内存回收的方法论，那么垃圾收集器就是内存回收的具体实现。Java虚拟机规范中对垃圾收集器应该如何实现并没有任何规定，因此不同的厂商、不同版本的虚拟机所提供的垃圾收集器都可能会有很大差别，并且一般都会提供参数供用户根据自己的应用特点和要求组合出各个年代所使用的收集器。HotSpot虚拟机的垃圾回收器图中展示了7种作用于不同分代的收集器，如果两个收集器之间存在连线，就说明它们可...

2018-11-13 15:12:53 120

转载 JVM快速调优之一：内存结构（堆内存和非堆内存）

图为Java虚拟机运行时的数据区:1.方法区也称"永久代” 、“非堆”，它用于存储虚拟机加载的类信息、常量、静态变量、是各个线程共享的内存区域。默认最小值为16MB，最大值为64MB（未验证），可以通过-XX:PermSize 和 -XX:MaxPermSize 参数限制方法区的大小。运行时常量池：是方法区的一部分，Class文件中除了有类的版本、字段、方法、接口等描述信息外，还有一项...

2018-11-13 11:22:37 782

转载 Hadoop理论——hdfs基础架构

开篇之前我们在这里先明确下hdfs是一个分布式文件存储系统，其和linux是相似的，linux也能算是一个文件存储系统(当然严格意思上是一个操作系统，但其所有的配置和命令都是以文件的形式存储，所以我们在这里就全当他是文件系统理解吧)，但不是分布式的。其次，在我们日常的学习过程当中，我们使用的是伪分布式，就是我们的NameNode，DataNode和SecondaryNameNode是被部署到同一台...

2018-11-09 17:36:30 134

原创 Hadoop使用——hdfs shell

当Hadoop搭建完毕之后，启动Hadoop就可以使用了，而Hadoop既然是个分布式存储系统，那么肯定需要将文件上传到服务器进行存储，这篇博客就此进行初步的hdfs shell使用既然都是搭建在Linux下的，因此，hdfs shell也可以看见Linux命令的影子。我们使用hdfs dfs、hadoop fs使用，根据个人爱好使用就可以，这里使用hdfs dfs以下就是hdfs简单命令...

2018-11-09 17:34:06 189

yarn-site.xml

HadoopHA集群配置文件

空空如也