![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据瞎写
文章平均质量分 81
Ace佳佳佳佳佳
这个作者很懒,什么都没留下…
展开
-
Spark RDD笔记
从这里学习的,讲的真好~ https://www.bilibili.com/video/av62992342/?p=41JAVA IO : 装饰者设计模式Spark的RDD也是类似的RDD是将数据处理的逻辑进行了封装。JAVA读数据并不是直接读文件,而是在readLine的时候去读。Spark是在Collect被触发的时候去读数据,所以需要execute驱动。什么是RDDRD...转载 2019-11-01 18:42:03 · 309 阅读 · 0 评论 -
Spark学习笔记
从这里学习的,讲的真好~ https://www.bilibili.com/video/av62992342/?p=41Spark开头别的不多说了,就说Spark为啥存在。他来到这就是为了代替MapReduce的!MR的缺点为啥要被代替呢?学过Hadoop知道,Hadoop早期,MR是基于数据集的计算,面向的是数据。基本运算规则是从存储介质中采集数据,然后进行计算,所以它的计算往往是一...转载 2019-11-01 18:41:30 · 250 阅读 · 0 评论 -
HIVE函数练习
单纯的练习,是从尚硅谷大数据课程之Hive(2019新版)学的,反正我记录的都是我手敲过的。。。1.空字段赋值函数说明:NVL:给值为null的数据赋值。格式是NVL(string1 , replace with)。如果string1为null,则NVL函数返回replace_with的值,否则返回string1的值。如果两个参数都为null,则返回null例如:> selec...转载 2019-10-30 11:42:38 · 1067 阅读 · 0 评论 -
Hive 的DDL和DML
本文是跟着这个学习的 https://www.bilibili.com/video/av65556024?p=1DDL1.库建库:> create database if not exists 库名; 还有一个方式:> create database if not exists 库名 location 路径; 指定hdfs路径查看数据库:> show d...转载 2019-10-30 11:34:04 · 403 阅读 · 0 评论 -
Hive基础笔记(架构、运行过程、元数据、数据类型)
接着上次的hive安装配置https://www.jianshu.com/p/2f284bd01344,这次记录别的。那Hive到底能干啥??基于Hadoop的数据仓库,可以把结构化的数据文件映射为一张表,然后提供类SQL的查询功能、本质是把HQL转化为MR程序,当然这个MR可以被Spark或者Flink代替。Hive架构这个Metadata配置存在mysql里面,其实客户端是先找了M...原创 2019-10-30 11:26:11 · 143 阅读 · 0 评论 -
Kafka集群搭建笔记
紧接着上一篇Zk集群搭建:https://blog.csdn.net/w635614017/article/details/89960255这边直接搭建起来Kafka集群,环境路径啥的都写上一篇了,可以去查看。kafka官网:http://kafka.apache.org/我下载的版本是:kafka_2.11-2.1.11.配置依然是解压缩到我的目录下 /opt/soft然后进入到ka...原创 2019-05-08 17:47:30 · 133 阅读 · 0 评论 -
Zookeeper集群搭建笔记
研究kafka的过程中,需要搭建zookeeper集群,过程比较简单,记录一下:依然是三个虚拟机Centos7环境192.168.20.3 Master192.168.20.4 Slave1192.168.20.5 Slave21.下载及配置环境变量https://zookeeper.apache.org/官方下载zk的tar包,我下载的是3.4.14版本放linux下 我的路径...原创 2019-05-08 16:38:35 · 183 阅读 · 0 评论 -
Hive搭建指南 环境CentOS7
这里Hadoop的版本用的是 2.7.5hive版本选择的是 2.3.4请看好与hadoop版本搭配的hive,官方目前继续提供2.x和3.x的支持。机器依然是hadoop的:192.168.20.3 Master192.168.20.4 Slave1192.168.20.5 Slave2关于hadoop搭建请看:https://www.jianshu.com/p/25a0650...原创 2019-04-12 18:36:17 · 222 阅读 · 0 评论 -
hive执行表操作指令卡死问题的解决
问题描述在对hive表执行alert的时候,发现卡住不动了,退出后重进尝试drop表,依然卡住不动。找解决方案如下:1.网上的方案:先进入mysql,执行show variables like 'char%'查看character_set_database 的value是latin然后把latin改成utf-8就好了,然后就解决了。然而实际的情况不是这个样子的,我这边mysq...原创 2019-04-08 16:36:22 · 9428 阅读 · 3 评论 -
使用IDEA进行远程调试
假设我们现在想要调试dubbo服务,想通过操作远程的web,走本地代码上的断点调试代码。Server1.打开idea Run/Debug的Configurations 点击加号,添加一个 RemoteHost和Port 自己设置好,Port设置前注意是否被占用。项目也选择好。2.到远程,kill掉待调试的服务。java -jar -Xdebug -Xrunjdwp:transport...原创 2019-04-08 16:33:36 · 294 阅读 · 0 评论 -
Kylin构建Cube的流程与算法
我这一篇参考这个,感谢作者:https://www.cnblogs.com/zlslch/p/7404465.html1.Kylin中重要的结构Cube在解释kylin中的cube结构里,网络上比较流行的一个图,其中的Cube共有三个维度:时间(time)、地点(location)、产品(product),data cell里面是度量,也就是统计的值。那我们就可以通过这三个维度的值来直接确...转载 2019-04-08 16:32:39 · 823 阅读 · 0 评论 -
Hive常用命令记录
1.进入hive客户端>hive2.查看数据库>show databases;3.查看表>show tables;4.对表进行的查询操作与sql几乎相同,需要注意的是尽量不要查看或操作过多数据。5.创建表>create table 表名(user_id int,user_name string) clustered by (user_id)注意!推...原创 2019-04-08 16:31:39 · 271 阅读 · 0 评论 -
解决由于操作顺序问题导致 hbase 一直处于启动无法关闭的问题
由于一些不规范的操作顺序,可能出现Hbase无法关闭的情况,具体表现为:hbase的bin目录下执行 hbase-stop.sh 命令,一直 出现点 “。。。” 卡死。不要试图去手动kill掉进程,否则你会发现当你kill掉一个hbase进程之后,马上就又有一个新进程出现。。。原因有很多,如何定位问题呢?答案就是去log目录下,查看master日志,基本上记录了问题。我碰到的是,我进入hba...原创 2019-04-08 16:30:35 · 1739 阅读 · 0 评论 -
日志收集系统Flume笔记(基础版)
1.Flume是啥?Flume是一种分布式,大数据日志收集系统。可以定制数据源、数据终点、数据传输通道,过程中可以简单的对数据进行一些处理。而且可以搭配消息队列或者数据仓库使用,比如kafka、Hive。2.架构Flume很简单,主要有三个方面:Source、Channel、Sink。其中Source是源、Channel是通道、Sink是数据下沉,也就是数据目的地。基本上我们要围绕这仨进行...原创 2019-04-08 16:29:49 · 1556 阅读 · 4 评论 -
Flume探索笔记
1.flume模型1.1 Eventflume 事件,被定义为一个具有有效荷载的字节数据流和可选的字符串属性集。1.2 Agentflume 代理,是一个进程承载从外部源事件流到下一个目的地的过程。包含source channel 和 sink。1.3 Source数据源,消耗外部传递给他的事件,外部源将数据按照flume Source 能识别的格式将Flume 事件发送给flume ...原创 2019-04-08 16:28:01 · 206 阅读 · 0 评论 -
集群搭建Hadoop 环境为CentOS7/JDK1.8
在看这一篇之前请先看:https://www.jianshu.com/p/bcb2f77d90e8 单机搭建Hadoop 保证可以熟悉hadoop的单机配置,这样不至于无脑粘贴xml文件内容导致各种问题。这边单机部署采用的是hadoop3这边我们回归到hadoop2.7去搭集群,其实都一样。1.准备本次要求准备三台服务器,这边演示使用VMware开了三个环境。192.168.20.3 Ma...原创 2019-04-11 15:51:25 · 214 阅读 · 0 评论 -
Hbase 安装搭建并部署 还有可能遇到的坑
1.前提条件:JDK1.8Hadoop 2.7 以上版本部署完毕2.安装Hbase在官网下载安装包,推荐1.x版本的Hbase,比较稳定,而且可以适配Kylin。目前Kylin不支持2.x的Hbase下载好拷贝到自己的软件目录 我的是 /opt/soft/执行tar -zxvf解压hbase的tar包然后执行chown - R alone:root hbase目录给当前用...原创 2018-09-21 15:18:44 · 342 阅读 · 0 评论 -
单机搭建 Hadoop3 环境为CentOS7/JDK1.8
在一切开始之前给用户建议设置一下权限,减少后面权限引发的问题visudo找到 root ALL=(ALL) ALL在这一行下添加一条 比如 : hadoop ALL=(ALL)ALL保存之后,注销一下用户,再登录回来。1.虚拟机CentOS设置静态ip主要有三点:1.设置成NAT模式通过 虚拟网络编辑器→ NAT模式→ NAT设置,看一下网关号,比如192.168.21....原创 2018-09-21 15:16:56 · 248 阅读 · 0 评论 -
在轻松气氛中浅谈——Apache Kylin
我简书下同步更新此篇文章:一.Kylin是什么?我这个人不喜欢贴一大堆难懂的话,所以我不扯淡,直接和大家分享我的理解:**Kylin是做大数据查询的!**补充一下就是,可以帮助我们对大数据进行多维度的分析。提高查询效率。二.Kylin架构简单的讲解一下图片,以Hive或者Kafka作为数据源,里面保存着真实表,而Kylin做的就是将数据进行抽象,通过引擎实现Cube的构建。将Hbas...原创 2018-09-21 15:09:49 · 558 阅读 · 0 评论