Spark算子记录、实例 从这里学习的,讲的真好~ https://www.bilibili.com/video/av62992342/?p=41单数据MAP1.作用返回一个新RDD,该RDD由每个输入元素经过func函数转换后组成。2.需求创建一个1-10数组的RDD,将所有元素*2形成新的RDD3.解val conf = new SparkConf().setMaster("local[*...
Spark RDD笔记 从这里学习的,讲的真好~ https://www.bilibili.com/video/av62992342/?p=41JAVA IO : 装饰者设计模式Spark的RDD也是类似的RDD是将数据处理的逻辑进行了封装。JAVA读数据并不是直接读文件,而是在readLine的时候去读。Spark是在Collect被触发的时候去读数据,所以需要execute驱动。什么是RDDRD...
Spark学习笔记 从这里学习的,讲的真好~ https://www.bilibili.com/video/av62992342/?p=41Spark开头别的不多说了,就说Spark为啥存在。他来到这就是为了代替MapReduce的!MR的缺点为啥要被代替呢?学过Hadoop知道,Hadoop早期,MR是基于数据集的计算,面向的是数据。基本运算规则是从存储介质中采集数据,然后进行计算,所以它的计算往往是一...
HIVE函数练习 单纯的练习,是从尚硅谷大数据课程之Hive(2019新版)学的,反正我记录的都是我手敲过的。。。1.空字段赋值函数说明:NVL:给值为null的数据赋值。格式是NVL(string1 , replace with)。如果string1为null,则NVL函数返回replace_with的值,否则返回string1的值。如果两个参数都为null,则返回null例如:> selec...
Hive 的DDL和DML 本文是跟着这个学习的 https://www.bilibili.com/video/av65556024?p=1DDL1.库建库:> create database if not exists 库名; 还有一个方式:> create database if not exists 库名 location 路径; 指定hdfs路径查看数据库:> show d...
Hive基础笔记(架构、运行过程、元数据、数据类型) 接着上次的hive安装配置https://www.jianshu.com/p/2f284bd01344,这次记录别的。那Hive到底能干啥??基于Hadoop的数据仓库,可以把结构化的数据文件映射为一张表,然后提供类SQL的查询功能、本质是把HQL转化为MR程序,当然这个MR可以被Spark或者Flink代替。Hive架构这个Metadata配置存在mysql里面,其实客户端是先找了M...
HTTPS加密解密那些方案记录 众所周知:Http1.0主要是无状态无连接,浏览器每次请求都要与服务器创建TCP连接,就要三次握手四次挥手,处理完就断开。所谓无状态就是服务器不跟踪客户端也不记录请求。http1.1 连接方式从1.0的close变成了keep-alive 持久连接。避免连接建立和释放的开销,服务器必须按照客户端请求的先后顺序回送结果。不允许同时存在两个并行的响应。http2.0:二进制分帧和多路复用。...
当提到JVM类加载的时候,我们是在谈什么? 当我们提到JVM的时候,前提是我们知道啥是JVM,谈这事的基础,至少知道它是java 虚拟机。此时至少要知道什么是虚拟机,如果听说过VM ware的话,需要知道这个VM是Virtual Machine的简称,这样就知道了JVM 是全称是Java Virtual Machine。那虚拟机是干啥的呢,用Java编写的程序,计算机是没法识别出来的,它根本就不懂这门语言,那么怎么办?就要有角色给它翻译翻...
[自用向]粗略复习——线程基础(基础的不得了) 取材于网络,忘记哪些帖子惹,挺多的。主要是我自己防止自己忘记记录的。1.线程是大家比较熟悉的概念,线程和进程都有五个阶段:创建、就绪、运行、阻塞、终止。多线程即一个程序有多个顺序流在执行。实现的方法 有三种:Thread、Runnable 和 Callable接口与Future、线程池结合。2.首先说java.lang.ThreadThread类,是很方便的一种,使用起来很快速,如果...
Kafka集群搭建笔记 紧接着上一篇Zk集群搭建:https://blog.csdn.net/w635614017/article/details/89960255这边直接搭建起来Kafka集群,环境路径啥的都写上一篇了,可以去查看。kafka官网:http://kafka.apache.org/我下载的版本是:kafka_2.11-2.1.11.配置依然是解压缩到我的目录下 /opt/soft然后进入到ka...
Zookeeper集群搭建笔记 研究kafka的过程中,需要搭建zookeeper集群,过程比较简单,记录一下:依然是三个虚拟机Centos7环境192.168.20.3 Master192.168.20.4 Slave1192.168.20.5 Slave21.下载及配置环境变量https://zookeeper.apache.org/官方下载zk的tar包,我下载的是3.4.14版本放linux下 我的路径...
Maven项目中Scala项目打包后不存在的解决办法 Scala文件在package之后没有出现在target里,进入jar包看一下,发现只有java的编译文件,却没有scala编译文件,这里要修改一下pom.xml,增加插件。<!-- scala编译插件 --> <plugin> <groupId>net.alchim31.maven</groupI...
用大数据报异常: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 用Spark或者Hbase可能会报这个错误,这个不影响流程,但是很烦,所以探究原因是HADOOP_HOME_DIR值为nul了,也就是环境变量的问题,这个问题普遍出现在windows调试的过程中。解决这个问题:可以下载:hadoop 2.2.0 : https://github.com/srccodes/hadoop-common-2.2.0-bin 或者hadoop 2.6.0 : ht...
Spring-AMQP使用和简单实例 之前写过按照官方文档学习使用RabbitMQ,了解了大概之后,我们可以开始尝试在项目里使用它。1.前提准备RabbitMQ,可以搭建在linux环境和windows环境。安装比较简单,这边先不赘述了。以后补上。我们要引入jar包,给出maven <dependency> <groupId>org.springframework.amqp</grou...
解决 /etc/sudoers is world writable linux系统中,etc文件夹下的sudoers文件是我们常用sudo指令的配置文件。我们可能会通过修改sudoers去修改指令。但是如果修改不当则会出现以下情况:sudo:sudo /etc/sudoers is world writablesudo:no valid sudoers sources found ,quittingsudo:unable to initialize pol...
Hive搭建指南 环境CentOS7 这里Hadoop的版本用的是 2.7.5hive版本选择的是 2.3.4请看好与hadoop版本搭配的hive,官方目前继续提供2.x和3.x的支持。机器依然是hadoop的:192.168.20.3 Master192.168.20.4 Slave1192.168.20.5 Slave2关于hadoop搭建请看:https://www.jianshu.com/p/25a0650...
集群搭建Hadoop 环境为CentOS7/JDK1.8 在看这一篇之前请先看:https://www.jianshu.com/p/bcb2f77d90e8 单机搭建Hadoop 保证可以熟悉hadoop的单机配置,这样不至于无脑粘贴xml文件内容导致各种问题。这边单机部署采用的是hadoop3这边我们回归到hadoop2.7去搭集群,其实都一样。1.准备本次要求准备三台服务器,这边演示使用VMware开了三个环境。192.168.20.3 Ma...
交互式shell和非交互式shell、登录shell和非登录shell的区别 在解读shell之前要把bash理解一下,把它看成一种多层的模式。要清楚shell并不是某一个时间里只能存在一个的。打个比方就是,比如我们进入一个房子,看到门,打开门进去就是进入了一个环境,但是在这里我们又发现一扇门,当我们打开这扇门进去的时候,就进入了新的环境了,这里就是新的bash。用户登录linux之后,系统会启动一个用户shell,在这个shell里,可以使用shell命令或者声明变量,...
Linux进程突然被杀掉(OOM killer),查看系统日志 Linux 内核有个机制叫OOM killer(Out Of Memory killer),该机制会监控那些占用内存过大,尤其是瞬间占用内存很快的进程,然后防止内存耗尽而自动把该进程杀掉。内核检测到系统内存不足、挑选并杀掉某个进程的过程可以参考内核源代码linux/mm/oom_kill.c,当系统内存不足的时候,out_of_memory()被触发,然后调用select_bad_process...