H_w-CSDN博客

原创 HBase系列（八）Phoenix操作HBase

Phoenix操作HBase一、Phoenix简介二、安装部署三、Phoenix实操访问Phoenix一、Phoenix简介Hbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的PAI执行在关系数据库中普遍使用的条件判断和聚合等操作。Apache Phoenix 是 HBase 的 SQL 驱动。Phoenix 使得 HBase 支持通过 JDBC 的方式进行访问，并将你的 SQL 查询转成 HBase 的扫描和相应的动作。Phoenix 基于Hbase

2021-01-25 22:36:24 2474

原创 HBase系列（七）二级索引

HBase二级索引为何需要HBase索引？二级索与原理是什么？如何设计二级索引？基于Coprocessor方案Phoenix二级索引方案非Coprocessor方案ES 二级索引方案为何需要HBase索引？HBase里面只有rowkey作为一级索引，如果要对库里的非rowkey字段进行数据检索和查询，往往要通过MapReduce/Spark等分布式计算框架进行，硬件资源消耗和时间延迟都会比较高。为了HBase的数据查询更高效、适应更多的场景，诸如使用非rowkey字段检索也能做到秒级响应，或者支

2021-01-22 22:49:37 1234

原创 HBase系列（六）优化

HBase优化一、HBase高可用Hmaster高可用部署HLog二、预分区三、Rowkey优化四、一、HBase高可用Hmaster高可用部署在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载，如果 Hmaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,此时的工作状态并不会维持太久。所以需要配置 Hmaster 的高可用HLog几乎所有的数据库(无论是关系型还是分布式的)，都采用WAL的方式来保障服务异常时候

2021-01-21 23:27:58 640

原创 HBase系列（五）Hive关联HBase

Hive与HBase数据同步方案一：Hive表关联HBase表1、HBase表存在的情况创建HBaseb表HBase表插入数据创建Hive表查询映射好的Hive表2、HBase表不存在的情况创建Hive表插入数据到Hive表方案二、Hive表生成hfile，通过bulkload导入到HBase1、引入Hbase自带的jar2、创建一个outputformat为HiveHFileOutputFormat的hive表3、原始数据表的数据通过hbase_hfile_base_info表保存为hfile4、创建HB

2021-01-21 18:12:49 1031

原创 HBase系列（四）Java Api

目前HBase维护了两个版本：1.x和2.x，两个版本的Java API有些区别，同时你使用的客户端的版本必须与服务端版本保持一致，如果用 2.x 版本的客户端代码去连接 1.x 版本的服务端，会抛出 NoSuchColumnFamilyException 等异常。

2021-01-21 10:55:35 624

原创 HBase系列（三）实操

HBase实操基本操作命令基本操作命令1、查看HBase运行状态hbase(main):001:0> status1 active master, 0 backup masters, 1 servers, 0 dead, 2.0000 average load2、创建命名空间hbase(main):002:0> create_namespace 'test'0 row(s) in 1.3840 seconds3、查看命名空间hbase(main):003:0> de

2021-01-19 13:30:01 651

原创 HBase系列（二）安装部署

HBase安装部署准备工作安装部署解压tar包到安装目录下配置环境变量修改配置文件启动HBase准备工作JDK 1.8+HBase安装包zookeeper集群(HBase有自带到)Hadoop集群安装部署解压tar包到安装目录下[root@hadoop01 opt]# tar -zxvf hbase-1.3.1-bin.tar.gz 配置环境变量[root@hadoop01 opt]# vim /etc/profile更新：export HBASE_HOME=/opt/hbase

2021-01-18 23:32:33 367

原创 HBase系列（一）介绍

HBase入门介绍一、HBase简介什么是HBase？HBase特点性二、逻辑视图三、物理存储四、系统架构五、工作原理一、HBase简介什么是HBase？Apache HBase是基于Hadoop构建的一个分布式的、可伸缩的海量数据存储系统。Hbase是一种NoSQL数据库，这意味着它不像传统的RDBMS数据库那样支持SQL作为查询语言。Hbase是一种建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式存储的数据库，技术上来讲，它更像是分布式存储而不是分布式数据库，它缺少很多R

2021-01-15 22:05:26 442

原创 Hive系列（六）调优

Hive调优

2021-01-13 18:19:36 574

原创 Hive系列（五）深入理解

深入理解Hive分区与分桶Hive分区Hive分桶分区又分桶Join底层MapReduce实现Common JoinMap Join高阶聚合函数with cubegrouping setsrollup分区与分桶Hive分区在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。分区表指的是在创建表时指定的partition的分区空间。分区是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文

2021-01-13 17:21:20 425

原创 Hive系列（四）函数

Hive函数一、常用内置函数数学运算函数字符串函数时间函数条件控制函数集和函数分组聚合函数表生成函数JSON解析函数窗口分析函数二、自定义函数UDF、UDAF、UDTF比较自定义UDF创建临时函数创建永久函数一、常用内置函数数学运算函数字符串函数时间函数条件控制函数集和函数分组聚合函数表生成函数JSON解析函数窗口分析函数二、自定义函数为什么要自定义函数？有时候 hive 自带的函数不能满足当前需要,需要自定义函数来解决问题UDF、UDAF、UDTF比较UDF 操作作用于单个

2021-01-07 17:52:45 1173

原创 Hive系列（三）实操

Hive系列（三）实操一、Hive使用方式shell交互启动hiveserver2脚本化运行二、Hive建库建表与数据导入建库建表内部表与外部表分区表CTAS建表语法数据导入一、Hive使用方式shell交互启动一个hive交互shellbin/hive启动hiveserver2第一步：启动hive服务前台启动命令：bin/hiveserver2后台启动命令：# 不记录日志（日志路径可以根据自己设定）nohup bin/hiveserver2 1>/dev/null 2&gt

2021-01-06 19:21:04 1189

原创 Hive系列（二）安装部署

Hive系列（二）安装部署一、环境准备1.1 JDK1.2 Haoop1.3 MySQL二、安装2.1 解压安装包2.2 配置环境变量2.3 修改配置文件2.3.1 将conf目录下带有template的文件复制一份2.3.2 修改conf/hive-env.sh文件2.3.3 创建以下目录并授权2.3.4 修改conf/hive-site.xml文件2.3.5 将下载的jdbc驱动jar包放到lib目录下2.3.6 初始化Hive三、启动hive一、环境准备1.1 JDKJDK1.81.2 Hao

2021-01-04 16:49:57 471

原创 Hive系列（一）介绍

一、简介1.1 什么是HiveHive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在HDFS上的数据。Hive可以将建构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能。Hive可以将SQL转换成MapReduce任务运行，通过自己的SQL查询分析需要的内容。这套SQL简称Hive SQL，使不熟悉MapReduce的用户可以很方便的利用SQL语言查询、汇总和分析数据。1.2 Hive特点可扩展：Hive可以自由的扩展集群的规模，一般情况下不需

2021-01-04 14:53:31 310

原创 Flink事件时间、水印以及迟到数据处理的个人理解

Flink中的时间概念Flink在流式传输程序中支持不同的时间概念：ProcessingTime: 处理时间，正在执行操作的机器的时间EventTime: 事件时间，事件发生的时间IngestionTime：摄取时间，时间进入Flink的时间区别处理时间是一种比较简单的时间概念，不需要流和系统之间进行协调，可以提供最佳的性能和最低的延迟。但是在分布式环境中，多台机器的处理时间无法做到严格一致，无法提供确定性的保障。而事件时间是事件产生的时间，是Flink DataStream中的数据元素自

2020-12-04 20:22:20 1284

原创 Spark2.2 (八) SparkSql读写MySQL

Spark读写MySQL1.配置信息2.需求示例3.完整代码实现4.输出结果5.总结1.配置信息下面展示一些内联代码片。#mysql数据库配置mysql.driver=com.mysql.jdbc.Drivermysql.url=jdbc:mysql://localhost:3306/test?serverTimezone=UTCmysql.user=******mysql.password=******2.需求示例1.mysql中score表示例数据mysql> select

2020-10-16 18:21:58 492

原创 Redis（三）数据安全和性能保障

文章目录持久化选项快照持久化（RDB)创建快照的几种方法快照持久化的的优缺点AOF持久化AOF持久化的优缺点重写/压缩AOF文件总结复制配置项Redis复制的启动过程主从链检验硬盘写入处理系统故障验证快照文件和AOF文件更换故障主服务器Redis事务为什么Redis没有实现典型的枷锁功能？性能测试持久化选项Redis提供了两种不同的持久化方法来将数据存储到硬盘里面。一种方法叫快照（snapshotting）,它可以将存在于某一时刻的所有数据都写入到硬盘里面。另一种方法叫只追加文件（AOF）,它会在执行写

2020-06-23 15:44:03 472

原创 Redis（二）使用

文章目录管道（Pipelining）概念对比测试事务、管道和脚本的区别Redis Lua脚本内存优化过期大批量数据插入管道（Pipelining）概念Redis是一种基于客户端-服务端模型以及请求/响应协议的TCP服务，客户端向服务端发送一个查询请求，并监听Socket返回，通常是以阻塞模式，等待服务端响应，服务端处理命令，并将结果返回给客户端。这个时间被称之为 RTT (Round Trip Time - 往返时间)。当客户端需要在一个批处理中执行多次请求时，RTT就会很大。管道（Pipeline

2020-06-22 16:57:08 335

原创 Redis（一）入门篇

文章目录一、Redis简介概述特点优势对比memcachememcache二、安装部署安装配置详解启动密码设置三、Redis数据类型1、String（字符串）2、Hash（哈希）3、List（列表）4、Set（集合）5、ZSET（有序集合）四、命令Redis KEY命令Redis STRINGS 命令Redis Lists命令Redis Hashes命令一、Redis简介概述redis(REmote DIctionary Server)是一个由Salvatore Sanfilippo写key-valu

2020-06-19 17:07:56 690

原创 Spark2.2 (七) Spark Streaming与外部存储介质

一、将DStream输出到文件中Spark Streaming提供了多个上层接口，用于将DStream书出到外部文件，包括saveAsObjectFiles、saveAsTextFiles、saveAsHadoopFiles,可以分别将DStram输出到序列化文件，文本文件及Hadoop文件中。下面简单的词频统计将DStream输出到文本文件中关键步骤1、构建一个流式上线文，配置我们Spa...

2019-10-17 14:35:56 445

原创 Spark2.2 (六) Spark Streaming分析Kakfa数据

Spark Streaming分析Kakfa数据环境spark-2.2.0kafka-2.11-2.30zookeeper-3.5.5kafka Producer开发package docimport java.util.Propertiesimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerReco...

2019-10-16 17:42:58 253

原创 zookeeper3.5.5安装报错：找不到或无法加载主类 org.apache.zookeeper.server.quorum.QuorumPeerMain

zookeeper-3.5.5安装错误Centos安装最新的zookeeper，记录下遇到的问题启动zookeeper显示已启动，但是查状态不对。，而且进程也没起来然后去百度总结了以下几种可能遇到的问题1、zoo.cfg配置文件中指定目录却没有创建，创建相应目录即可2、使用service iptables stop 关闭防火墙；使用service iptables status确认3...

2019-10-15 12:04:35 1435

原创 Spark2.2（五）SparkSQL读写Hive

IDEA中使用SparkSQL读写Hive添加依赖libraryDependencies ++= Seq("org.apache.spark" %% "spark-core" % "2.2.0", "org.apache.spark" %% "spark-sql" % "2.2.0", ...

2019-09-20 17:54:04 1438

原创 Spark2.2（四）用户自定义聚合函数

用户自定义聚合函数package doc.dfimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache.spark.sql.t...

2019-09-18 18:21:18 390

原创 Spark2.2（三）SparkSql数据源

SparkSql数据源package doc.dfimport java.util.Propertiesimport org.apache.hadoop.fs.{FileSystem, Path}import org.apache.hadoop.mapred.{FileOutputFormat, JobConf}import org.apache.hadoop.mapred.lib....

2019-09-18 18:18:09 301

原创 Spark2.2（二）RDD算子

Spark2.2文档（二）RDD算子package doc.rddimport org.apache.spark.util.DoubleAccumulatorimport org.apache.spark.{SparkConf, SparkContext}/** * @Program: doc.rdd * @Author: huangwei * @Date: 2019/9/...

2019-09-18 18:16:26 143

原创 Spark2.2（一）RDD

Spark2.2文档（一）RDDpackage doc.rddimport org.apache.spark.{SparkConf, SparkContext}/** * @Program: doc.rdd * @Author: huangwei * @Date: 2019/9/5 18:03 * @description: Spark最重要的一个抽象概念就是弹性分布式数...

2019-09-18 18:04:23 171

原创 win10系统更新后C盘占用空间过大

windows系统会经常提示更新，更新后会发现C盘的空间越来越小，这里教大家清理磁盘。一、首先打开电脑，选择C盘，点击右键点击属性然后点击磁盘清理点击清理系统文件，系统会扫描电脑垃圾，选择以前Windows安装，然后点击确定这里会提示清理后不能回到以前的版本等待清理就行了...

2019-05-11 12:10:42 10661

原创 clickHouse单机安装

一、clickHouse简介clickHouse是俄罗斯人开源的一个数据分析的数据库，这个列式存储的数据库跑分要领先很多流行的商业的数据库软件，简单的说，ClickHouse作为分析型数据库，有三大特点：一是跑分快，二是功能多，三是文艺范二、安装环境官网上优先支持Ubuntu系统，Ubuntu有官方编译好的安装包可以使用。但国内大部分使用的还是Centos系统，这里是Centos7系统...

2018-10-08 12:09:50 2341 1

原创 Centos7安装R和RStudio

一、去官网下载安装包https://mirrors.tuna.tsinghua.edu.cn/CRAN/点击R-3.5.1.tar.gz 进行下载二、解压我习惯解压到/usr/local目录下tar -zxvf R-3.5.1.tar.gz -C /usr/local三、下载各种依赖yum install -y gccyum install -y gcc-gfortranyu...

2018-08-01 16:38:49 5898

原创 Flink SQL代码示例（scala版本）

一、创建SBT项目，添加以下依赖// https://mvnrepository.com/artifact/org.apache.flink/flink-tablelibraryDependencies += "org.apache.flink" %% "flink-table" % "1.2.0"// https://mvnrepository.com/artifact/org.apache...

2018-07-03 17:45:43 4493

原创 Centos7安装Python3.6

Centos7系统自带Python2.7一、安装Python3.6可能需要的依赖yum install xz gcc zlib zlib-develyum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel二、到python官网找到下载路径, 用wget下载wget https:/...

2018-07-03 17:22:03 507

原创 macbook 装win7双系统以及遇到的一些问题

一、准备工具windows镜像文件U盘二、分区找到“实用工具”里的“磁盘工具”，双击打开，先点本机总的那块儿磁盘，再选择“分区”，点“+”增加一个分区，右侧“大小”可以调整WINDOWS的大小，确定好分区大小之后，点击“应用”，就可以等待分区完毕了！（注意：1、WINDOWS分区的格式是Fat（日志式）2、如果提示分区失败的话，可以进入recovery分区修复一下磁盘，如果修复后还是不行，建议整个...

2018-07-03 17:14:32 1667

原创 Java连接HBase超时解决方法

通过java连接hbase时，报出超时的错误，如下：2017-09-13 20:25:01,882 [main] WARN org.apache.hadoop.util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where ap

2017-09-13 20:32:59 7438

原创 ElasticSearch集群搭建及插件安装

一、环境JDK1.8.0_131集群：hadoop01hadoop02hadoop03Elasticsearch集群中有的节点一般有三种角色:master node、data node和client node。1、master node:master几点主要用于元数据(metadata)的处理，比如索引的新增、删除、分片分配等。2、data node:data 节点

2017-09-08 08:50:53 651

原创 HBase分布式集群搭建

一、环境准备 JDK1.8.0_131 Hadoop集群: hadoop01(namenode) hadoop02(datanode) hadoop03(datanode) zookeepr集群二、官网下载tar包http://www.apache.org/dyn/closer.cgi/hbase/这里下载的是1.3.1版本的，把下载好的

2017-09-06 18:10:28 484

原创 Flume学习笔记及配置参数详解

一、什么是flumeFlume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。二、flume特点flume的数据流由事件(Event)贯穿始终。事件是Flume的基本数据单位，它携带日志数据(字节数组形式)并且携带有头信息，这些Ev

2017-09-04 16:34:10 11317

原创 Hive行转列，列转行

下面举两个例子：例一:行转列数据：a b 1a c 2a b 3c d 4c d 5c d 6转化为：a b 1,2,3c d 4,5,6 创表Hive>create table test1 (col1 String,col2 String,col3 String) row format delimited fields terminat

2017-08-29 09:12:56 7588

原创 Hive的安装和配置

准备工作： mysql hive的tar包 hadoop环境 jdk 1、mysql需求远程登录权限：如果不需求安全策略可以关闭mysql5.7的安全策略添加/etc/my.cnf文件中添加如下配置禁用即可： validate_password = off 设置访问权限 *.*表

2017-08-21 09:51:20 606

原创 Hadoop学习笔记

一、Hadoop是什么？首先要讲下分布式：分布式是计算机的一种算法，它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分，然后把这些部分分配给许多计算机进行处理，最后把这些计算结果综合起来得到最终的结果。hadoop是一个由Apache基金会所开发的分布式系统基础架构。实现计算机集群的大数据集的分布式处理。hadoop发展史：雏形开始于2002年的Apache的Nutc

2017-08-17 16:57:03 354

空空如也

空空如也