自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 问答 (1)
  • 收藏
  • 关注

原创 集群搭建Hadoop 环境为CentOS7/JDK1.8

在看这一篇之前请先看:https://www.jianshu.com/p/bcb2f77d90e8 单机搭建Hadoop 保证可以熟悉hadoop的单机配置,这样不至于无脑粘贴xml文件内容导致各种问题。这边单机部署采用的是hadoop3这边我们回归到hadoop2.7去搭集群,其实都一样。1.准备本次要求准备三台服务器,这边演示使用VMware开了三个环境。192.168.20.3 Ma...

2019-04-11 15:51:25 218

原创 Hbase 安装搭建并部署 还有可能遇到的坑

1.前提条件:JDK1.8Hadoop 2.7 以上版本部署完毕2.安装Hbase在官网下载安装包,推荐1.x版本的Hbase,比较稳定,而且可以适配Kylin。目前Kylin不支持2.x的Hbase下载好拷贝到自己的软件目录 我的是 /opt/soft/执行tar -zxvf解压hbase的tar包然后执行chown - R alone:root hbase目录给当前用...

2018-09-21 15:18:44 345

原创 单机搭建 Hadoop3 环境为CentOS7/JDK1.8

在一切开始之前给用户建议设置一下权限,减少后面权限引发的问题visudo找到 root ALL=(ALL) ALL在这一行下添加一条 比如 : hadoop ALL=(ALL)ALL保存之后,注销一下用户,再登录回来。1.虚拟机CentOS设置静态ip主要有三点:1.设置成NAT模式通过 虚拟网络编辑器→ NAT模式→ NAT设置,看一下网关号,比如192.168.21....

2018-09-21 15:16:56 250

转载 记录数据库优化指令——explain

出处:https://segmentfault.com/a/1190000008131735复习一下explian的用法,这篇文章很棒,就正好利用这个机会重新试试看。准备为了接下来方便演示 EXPLAIN 的使用, 首先我们需要建立两个测试用的表, 并添加相应的数据:CREATE TABLE `user_info` ( `id` BIGINT(20) NO...

2018-04-23 10:46:36 190

原创 Spark算子记录、实例

从这里学习的,讲的真好~ https://www.bilibili.com/video/av62992342/?p=41单数据MAP1.作用返回一个新RDD,该RDD由每个输入元素经过func函数转换后组成。2.需求创建一个1-10数组的RDD,将所有元素*2形成新的RDD3.解val conf = new SparkConf().setMaster("local[*...

2019-11-01 18:58:16 415

转载 Spark RDD笔记

从这里学习的,讲的真好~ https://www.bilibili.com/video/av62992342/?p=41JAVA IO : 装饰者设计模式Spark的RDD也是类似的RDD是将数据处理的逻辑进行了封装。JAVA读数据并不是直接读文件,而是在readLine的时候去读。Spark是在Collect被触发的时候去读数据,所以需要execute驱动。什么是RDDRD...

2019-11-01 18:42:03 322

转载 Spark学习笔记

从这里学习的,讲的真好~ https://www.bilibili.com/video/av62992342/?p=41Spark开头别的不多说了,就说Spark为啥存在。他来到这就是为了代替MapReduce的!MR的缺点为啥要被代替呢?学过Hadoop知道,Hadoop早期,MR是基于数据集的计算,面向的是数据。基本运算规则是从存储介质中采集数据,然后进行计算,所以它的计算往往是一...

2019-11-01 18:41:30 260

转载 HIVE函数练习

单纯的练习,是从尚硅谷大数据课程之Hive(2019新版)学的,反正我记录的都是我手敲过的。。。1.空字段赋值函数说明:NVL:给值为null的数据赋值。格式是NVL(string1 , replace with)。如果string1为null,则NVL函数返回replace_with的值,否则返回string1的值。如果两个参数都为null,则返回null例如:> selec...

2019-10-30 11:42:38 1075

转载 Hive 的DDL和DML

本文是跟着这个学习的 https://www.bilibili.com/video/av65556024?p=1DDL1.库建库:> create database if not exists 库名; 还有一个方式:> create database if not exists 库名 location 路径; 指定hdfs路径查看数据库:> show d...

2019-10-30 11:34:04 415

原创 Hive基础笔记(架构、运行过程、元数据、数据类型)

接着上次的hive安装配置https://www.jianshu.com/p/2f284bd01344,这次记录别的。那Hive到底能干啥??基于Hadoop的数据仓库,可以把结构化的数据文件映射为一张表,然后提供类SQL的查询功能、本质是把HQL转化为MR程序,当然这个MR可以被Spark或者Flink代替。Hive架构这个Metadata配置存在mysql里面,其实客户端是先找了M...

2019-10-30 11:26:11 146

原创 HTTPS加密解密那些方案记录

众所周知:Http1.0主要是无状态无连接,浏览器每次请求都要与服务器创建TCP连接,就要三次握手四次挥手,处理完就断开。所谓无状态就是服务器不跟踪客户端也不记录请求。http1.1 连接方式从1.0的close变成了keep-alive 持久连接。避免连接建立和释放的开销,服务器必须按照客户端请求的先后顺序回送结果。不允许同时存在两个并行的响应。http2.0:二进制分帧和多路复用。...

2019-10-24 15:53:21 321

原创 当提到JVM类加载的时候,我们是在谈什么?

当我们提到JVM的时候,前提是我们知道啥是JVM,谈这事的基础,至少知道它是java 虚拟机。此时至少要知道什么是虚拟机,如果听说过VM ware的话,需要知道这个VM是Virtual Machine的简称,这样就知道了JVM 是全称是Java Virtual Machine。那虚拟机是干啥的呢,用Java编写的程序,计算机是没法识别出来的,它根本就不懂这门语言,那么怎么办?就要有角色给它翻译翻...

2019-09-16 17:45:31 133

原创 [自用向]粗略复习——线程基础(基础的不得了)

取材于网络,忘记哪些帖子惹,挺多的。主要是我自己防止自己忘记记录的。1.线程是大家比较熟悉的概念,线程和进程都有五个阶段:创建、就绪、运行、阻塞、终止。多线程即一个程序有多个顺序流在执行。实现的方法 有三种:Thread、Runnable 和 Callable接口与Future、线程池结合。2.首先说java.lang.ThreadThread类,是很方便的一种,使用起来很快速,如果...

2019-09-16 11:38:59 145

原创 Kafka集群搭建笔记

紧接着上一篇Zk集群搭建:https://blog.csdn.net/w635614017/article/details/89960255这边直接搭建起来Kafka集群,环境路径啥的都写上一篇了,可以去查看。kafka官网:http://kafka.apache.org/我下载的版本是:kafka_2.11-2.1.11.配置依然是解压缩到我的目录下 /opt/soft然后进入到ka...

2019-05-08 17:47:30 134

原创 Zookeeper集群搭建笔记

研究kafka的过程中,需要搭建zookeeper集群,过程比较简单,记录一下:依然是三个虚拟机Centos7环境192.168.20.3 Master192.168.20.4 Slave1192.168.20.5 Slave21.下载及配置环境变量https://zookeeper.apache.org/官方下载zk的tar包,我下载的是3.4.14版本放linux下 我的路径...

2019-05-08 16:38:35 184

原创 Maven项目中Scala项目打包后不存在的解决办法

Scala文件在package之后没有出现在target里,进入jar包看一下,发现只有java的编译文件,却没有scala编译文件,这里要修改一下pom.xml,增加插件。<!-- scala编译插件 --> <plugin> <groupId>net.alchim31.maven</groupI...

2019-04-17 17:37:38 2636

原创 用大数据报异常: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

用Spark或者Hbase可能会报这个错误,这个不影响流程,但是很烦,所以探究原因是HADOOP_HOME_DIR值为nul了,也就是环境变量的问题,这个问题普遍出现在windows调试的过程中。解决这个问题:可以下载:hadoop 2.2.0 : https://github.com/srccodes/hadoop-common-2.2.0-bin 或者hadoop 2.6.0 : ht...

2019-04-17 16:11:47 296

原创 Spring-AMQP使用和简单实例

之前写过按照官方文档学习使用RabbitMQ,了解了大概之后,我们可以开始尝试在项目里使用它。1.前提准备RabbitMQ,可以搭建在linux环境和windows环境。安装比较简单,这边先不赘述了。以后补上。我们要引入jar包,给出maven <dependency> <groupId>org.springframework.amqp</grou...

2019-04-15 18:58:31 1271

原创 解决 /etc/sudoers is world writable

linux系统中,etc文件夹下的sudoers文件是我们常用sudo指令的配置文件。我们可能会通过修改sudoers去修改指令。但是如果修改不当则会出现以下情况:sudo:sudo /etc/sudoers is world writablesudo:no valid sudoers sources found ,quittingsudo:unable to initialize pol...

2019-04-15 18:19:07 19187 3

原创 Hive搭建指南 环境CentOS7

这里Hadoop的版本用的是 2.7.5hive版本选择的是 2.3.4请看好与hadoop版本搭配的hive,官方目前继续提供2.x和3.x的支持。机器依然是hadoop的:192.168.20.3 Master192.168.20.4 Slave1192.168.20.5 Slave2关于hadoop搭建请看:https://www.jianshu.com/p/25a0650...

2019-04-12 18:36:17 225

转载 交互式shell和非交互式shell、登录shell和非登录shell的区别

在解读shell之前要把bash理解一下,把它看成一种多层的模式。要清楚shell并不是某一个时间里只能存在一个的。打个比方就是,比如我们进入一个房子,看到门,打开门进去就是进入了一个环境,但是在这里我们又发现一扇门,当我们打开这扇门进去的时候,就进入了新的环境了,这里就是新的bash。用户登录linux之后,系统会启动一个用户shell,在这个shell里,可以使用shell命令或者声明变量,...

2019-04-11 11:55:12 3066

原创 Linux进程突然被杀掉(OOM killer),查看系统日志

Linux 内核有个机制叫OOM killer(Out Of Memory killer),该机制会监控那些占用内存过大,尤其是瞬间占用内存很快的进程,然后防止内存耗尽而自动把该进程杀掉。内核检测到系统内存不足、挑选并杀掉某个进程的过程可以参考内核源代码linux/mm/oom_kill.c,当系统内存不足的时候,out_of_memory()被触发,然后调用select_bad_process...

2019-04-11 10:25:04 25718 4

原创 通过Shell命令-监视一个进程或端口,挂掉后自动重启,并自定义日志

1.问题的产生主要是因为某些内存问题,kylin总是自动挂掉。排查后发现因为多任务执行会占用很大内存,oom killer可能会因为内存不足了,把内存占用大的或者增长快的给自动kill掉。所以这边做了一些处理,写了一个自动重启。2.针对进程名processExist=`ps aux|grep kylin |grep -v "grep"` if [[ -z $processExist ]]...

2019-04-10 11:32:38 1662

原创 hive执行表操作指令卡死问题的解决

问题描述在对hive表执行alert的时候,发现卡住不动了,退出后重进尝试drop表,依然卡住不动。找解决方案如下:1.网上的方案:先进入mysql,执行show variables like 'char%'查看character_set_database 的value是latin然后把latin改成utf-8就好了,然后就解决了。然而实际的情况不是这个样子的,我这边mysq...

2019-04-08 16:36:22 9467 3

原创 使用IDEA进行远程调试

假设我们现在想要调试dubbo服务,想通过操作远程的web,走本地代码上的断点调试代码。Server1.打开idea Run/Debug的Configurations 点击加号,添加一个 RemoteHost和Port 自己设置好,Port设置前注意是否被占用。项目也选择好。2.到远程,kill掉待调试的服务。java -jar -Xdebug -Xrunjdwp:transport...

2019-04-08 16:33:36 298

转载 Kylin构建Cube的流程与算法

我这一篇参考这个,感谢作者:https://www.cnblogs.com/zlslch/p/7404465.html1.Kylin中重要的结构Cube在解释kylin中的cube结构里,网络上比较流行的一个图,其中的Cube共有三个维度:时间(time)、地点(location)、产品(product),data cell里面是度量,也就是统计的值。那我们就可以通过这三个维度的值来直接确...

2019-04-08 16:32:39 823

原创 Hive常用命令记录

1.进入hive客户端>hive2.查看数据库>show databases;3.查看表>show tables;4.对表进行的查询操作与sql几乎相同,需要注意的是尽量不要查看或操作过多数据。5.创建表>create table 表名(user_id int,user_name string) clustered by (user_id)注意!推...

2019-04-08 16:31:39 273

原创 解决由于操作顺序问题导致 hbase 一直处于启动无法关闭的问题

由于一些不规范的操作顺序,可能出现Hbase无法关闭的情况,具体表现为:hbase的bin目录下执行 hbase-stop.sh 命令,一直 出现点 “。。。” 卡死。不要试图去手动kill掉进程,否则你会发现当你kill掉一个hbase进程之后,马上就又有一个新进程出现。。。原因有很多,如何定位问题呢?答案就是去log目录下,查看master日志,基本上记录了问题。我碰到的是,我进入hba...

2019-04-08 16:30:35 1755

原创 日志收集系统Flume笔记(基础版)

1.Flume是啥?Flume是一种分布式,大数据日志收集系统。可以定制数据源、数据终点、数据传输通道,过程中可以简单的对数据进行一些处理。而且可以搭配消息队列或者数据仓库使用,比如kafka、Hive。2.架构Flume很简单,主要有三个方面:Source、Channel、Sink。其中Source是源、Channel是通道、Sink是数据下沉,也就是数据目的地。基本上我们要围绕这仨进行...

2019-04-08 16:29:49 1558 4

原创 Flume探索笔记

1.flume模型1.1 Eventflume 事件,被定义为一个具有有效荷载的字节数据流和可选的字符串属性集。1.2 Agentflume 代理,是一个进程承载从外部源事件流到下一个目的地的过程。包含source channel 和 sink。1.3 Source数据源,消耗外部传递给他的事件,外部源将数据按照flume Source 能识别的格式将Flume 事件发送给flume ...

2019-04-08 16:28:01 208

原创 解决运行docker命令要用sudo的问题

Q:首先说一下问题是怎么出现的?A:Docker的守护线程绑定的是unix socket,而不是TCP端口,这个套接字默认属于root,其他用户可以通过sudo去访问这个套接字文件。所以docker服务进程都是以root账户运行。解决的方式是创建docker用户组,把应用用户加入到docker用户组里面。只要docker组里的用户都可以直接执行docker命令。可以先通过指令查看是否有用户组...

2019-04-08 16:24:27 945

原创 自学Mybatis系列(2)——Mybatis配置元素

写在前面:十分感谢《深入浅出Mybatis技术原理与实战》这本书,大多数地方是书上的话,希望自己能在后面的文章中多写一些自己的理解。而且最重要的是!每次照书无脑敲的时候,都好羞愧啊(害羞脸)。后面一定注意这些问题。最后要感谢点赞、评论以及指正的朋友们,你们是坠吼的!!MyBatis配置元素MyBatis配置xml文件的层次结构是不能够颠倒顺序的,在解析的过程中,如果出现什么问题的话可以...

2018-09-21 15:14:39 450

原创 在轻松气氛中浅谈——Apache Kylin

我简书下同步更新此篇文章:一.Kylin是什么?我这个人不喜欢贴一大堆难懂的话,所以我不扯淡,直接和大家分享我的理解:**Kylin是做大数据查询的!**补充一下就是,可以帮助我们对大数据进行多维度的分析。提高查询效率。二.Kylin架构简单的讲解一下图片,以Hive或者Kafka作为数据源,里面保存着真实表,而Kylin做的就是将数据进行抽象,通过引擎实现Cube的构建。将Hbas...

2018-09-21 15:09:49 559

原创 自学Mybatis系列(3)——MyBatis的映射器

写在前面:十分感谢《深入浅出Mybatis技术原理与实战》这本书,大多数地方是书上的话,希望自己能在后面的文章中多写一些自己的理解。而且最重要的是!每次照书无脑敲的时候,都好羞愧啊(害羞脸)。后面一定注意这些问题。最后要感谢点赞、评论以及指正的朋友们,你们是坠吼的!!!Mapper 映射器映射器是个好东西,按照官方文档的话来说就是: The true power...

2018-04-23 10:59:21 146

原创 自学Mybatis系列(1)——MyBatis的基本构成

JAVA持久层框架——MyBatis学习 写在前面:十分感谢《深入浅出Mybatis技术原理与实战》这本书,大多数地方是书上的话,希望自己能在后面的文章中多写一些自己的理解。而且最重要的是!每次照书无脑敲的时候,都好羞愧啊(害羞脸)。后面一定注意这些问题。最后要感谢点赞、评论以及指正的朋友们,你们是坠吼的!!传统JDBC与现在的Mybatis使用JDBC访问数据库的步骤:...

2018-04-23 10:57:13 206 2

原创 SpringMVC表单多对象传递小技巧——@InitBinder

在公司coding的时候遇到的小问题,在网上浏览博文的时候发现了很好的解决办法,决定自己另设情景,向大神学习,这里贴一下学习的地址 http://blog.csdn.net/qq_24505127/article/details/542365831.问题情景项目中前端后台的数据传递是必不可少的,比如说我们要在一张表单中提交对象,如果只是一个对象就就很好做,因为单独的对象中是很...

2018-04-23 10:53:22 511

翻译 [用官方文档学习RabbitMQ]5.RabbitMQ的Topic Exchange

在前面的教程里,我们改进了日志系统。我们用direct交换类型代替了fanout交换类型,并实现了可以有选择性的接收日志。虽然使用direct类型成功的改进了我们的系统,但是它仍然有一定的局限性——它不能够基于多个标准进行路由。在我们的日志系统中,我们可能希望自己不仅仅基于严重性去订阅日志,我们还应该关注发出日志的源。可能在syslog unix工具上可以了解到这个概念,这个工具根据“严重...

2018-04-23 10:50:27 197

翻译 [用官方文档学习RabbitMQ]4.RABBITMQ的路由模式——ROUTING

在前面的教程里,我们构建了一个简单的日志记录系统。我们已经能够向许多消费者传送日志消息啦。 在本期,我们将会做一些修改,为它添加一个特性——让它可以只订阅消息的一部分。比如,我们能够只把致命的错误消息指向日志文件(节省磁盘的空间),同时,我们还可以在控制台打印出所有的日志消息。 绑定 在前面几期的例子中,我们已经用了绑定。回忆一下这段代码:channel.queueBind(queu...

2018-04-23 10:49:55 161

翻译 [用官方文档学习RabbitMQ]——3.RabbitMQ的发布订阅模式——Publish/Subscribe

继续翻译~第一次尝试进行这样模式的学习,感觉好难进行,不过还是要坚持住~!简介在之前的教程中,我们创建了一个工作队列,工作队列使用情况的假设是:每个人物都交付给一个Worker,也就是消费者。在这部分中,我们将做一些完全不同的事情——我们将向多个消费者传递消息。这样的模式被称为“发布/订阅”模式,检查P/S模式。 为了说明这个模式,我们将会构建一个简单的日志记录系统。它将由两...

2018-04-23 10:49:15 277

翻译 [用官方文档学习RabbitMQ]——2.RabbitMQ的工作(任务)模式模式——WorkQueue

在第一期里面我们写了个程序,给一个队列命名,并通过这个队列发送、接受消息。在这一期我们将会创建一个Work Queue用于在多个工作之间分配任务。(最后这句实在不知道咋翻译,看不懂的同学自行去官网查阅)简介工作队列(Work Queues)也叫任务队列(Task Queues),主要思想是避免立即去执行资源密集型的任务,同时还要等待它的完成。相反的,我们的计划是稍后再完成任务。我们会将...

2018-04-23 10:48:40 179

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除