自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 CDH--6.3安装配置

物理机离线安装CDH61.Cloudera CDH简介1.1 原生的Hadoop有哪些不足版本管理混乱部署过程繁琐、升级过程复杂兼容性差安全性低1.2 什么是CDH和Cloudera ManagerCDH (Cloudera’s Distribution Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据

2021-04-09 01:38:58 751

原创 flink--环境搭建及使用

flink架构环境搭建下载flink安装包,下载地址:https://flink.apache.org/downloads.html上传flink安装包到Linux服务器上解压flink安装包tar -xvf flink-1.9.1-bin-scala_2.11.tgz -C /bigdata/修改conf目录下的flink-conf.yaml配置文件#指定jobmanager的地址jobmanager.rpc.address: linux01#指定taskmanage

2021-04-08 00:37:11 230

原创 Redis--安装配置及基础应用

Redis 数据库nosql(not only sql) 非关系型数据库1 安装redis1.1 获取源码包先去官网(http://redis.io/download )下载一个源码工程(redis官网版本只支持linux/微软开源事业部维护了一个windows版本)把安装包上传到服务器,解压缩1.2 编译源码redis的源码是c语言开发,编译redis源码需要安装gcc安装gccyum -y install centos-release-sclyum -y install de

2021-04-08 00:28:49 112

原创 面经总结(大数据开发相关)

整理收集一些面试遇到的简单问题

2021-04-07 17:56:46 3365

原创 flink-基础

flink中的状态分为两种:分组的 (调用完keyBy) Keyed State:ValueStateMapStateListState未分组的 (没有调用keyBy) Operator State:ListStateBroadcastStateFlink实现数据一致性的原理:开启Checkpointing,将状态保存到StateBackend中job设置重启策略Source支持记录偏移量(可以重放数据)Sink支持覆盖(幂等性)...

2021-03-18 22:00:50 661

原创 Openresty(Nginx+Lua)--简介和安装

1.openresty(Nginx+Lua)的简介和安装1.1 什么是openrestyOpenResty 是一个基于 Nginx与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。OpenResty通过汇聚各种设计精良的 Nginx模块(主要由 OpenResty 团队自主开发),从而将 Nginx有效地变成一个强大的通用 Web 应用平台。这样,Web 开发人员

2021-03-18 17:34:47 576

原创 Azkaban-安装配置

1 Azkaban安装部署Azkaban是一个任务调度、管理系统,可以帮用户管理、调度各种运算任务!(可以调任何任务,只要你的任务能用脚本启动)Azkaban类似的产品还有很多,比如oozie,airflow1.1 准备工作Azkaban Web服务器azkaban-web-server-2.5.0.tar.gzAzkaban执行服务器azkaban-executor-server-2.5.0.tar.gzMySQL目前azkaban只支持 mysql作为元数据管理系统,需安装m

2021-01-27 23:07:28 159

原创 sparksql--spark整合hive

1. 安装MySQL并创建一个普通用户,并且授权```sql CREATE USER 'hive'@'%' IDENTIFIED BY '123456'; GRANT ALL PRIVILEGES ON hivedb.* TO 'hive'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION; FLUSH PRIVILEGES;在${SPARK_HOME}/conf/下添加一个hive-site.xml<?xml version="1.0" e

2021-01-15 22:15:15 92

原创 spark-onyarn配置和执行流程

spark-onyarn配置1 配置hadoop需要在/etc/profile中配置HADOOP_CONF_DIR的目录,目的是为了让Spark找到core-site.xml、hdfs-site.xml和yarn-site.xml【让spark知道NameNode、ResourceManager】,不然会报如下错误:Exception in thread “main” java.lang.Exception: When running with master ‘yarn’ either HADOOP_

2021-01-15 20:56:57 432

原创 Spark -安装配置

Spark架构说明standalone模式是Spark自带的分布式集群模式,不依赖其他的资源调度框架安装步骤下载spark安装包,下载地址:https://spark.apache.org/downloads.html(国外网络卡慢,建议使用vpn,链接下载)或者,百度搜索: 清华大学开源软件镜像站,可以快速下载安装包上传spark安装包到Linux服务器上解压Spark安装包tar -zxvf spark-3.0.1-bin-hadoop3.2.tgz -C /opt

2021-01-15 19:15:13 273 2

原创 ClickHouse学习笔记---集群安装配置

ClickHouse笔记整理2020-12-04ClickHouse的单机安装安装curl工具yum install -y curl添加clickhouse的yum镜像curl -shttps://packagecloud.io/install/repositories/altinity/clickhouse/script.rpm.sh| sudo bash检查镜像情况[root@doit04 yum.repos.d]# yum list | grep clickho

2020-12-04 20:42:23 95

原创 Hive的分桶表2020-12-02

hive的分桶表创建分桶表查看表结构desc formatted buck_demo;create table buck_demo(id int, name string)clustered by(id) --根据id分桶into 4 buckets --分四桶row format delimited fields terminated by '\t';分桶表分区表是将数据分文件夹管理 , 减少数据扫描的文件范围 直接从对应文件夹中读取数据 分桶表 对jo

2020-12-02 19:53:13 111

原创 Hive学习笔记 --数据导入导出

数据的导入1 location2 load3 insert4 create5 put6 import导入指定export的数据create table tb_log2 like tb_log ; -- 根据已有的表结构建表export table tb_log to'/user/hive/warehouse/export/tb_log';import table tb_log2 from'/user/hive/warehouse/e...

2020-12-02 17:05:13 119

原创 Hive笔记整理 -- 系统函数

Hive笔记整理 – 系统函数查看系统函数show function; – 展示系统中所有的函数desc function 函数名; – 查看该函数的使用数据表分区查询 排序排序在执行的时候默认是一个reducetaskset mapreduce.job.reduces=n; – 为方便查看效果,可以先设置reducetask数量nset mapreduce.job.reduces; – 查看配置数量order by – 全局结果排序distribute by – 指定分

2020-12-02 16:57:53 93

原创 Hive学习笔记--Hive分区

hive笔记整理2020-12-01hive分区:静态分区步骤1) 前提有静态数据2)创建分区表3)将静态数据导入到指定的分区中创建普通表导入本地数据drop table tb_log ; --删除表create table tb_log(log_id string ,url string ,ct string)row format delimited fields terminated by ',' ; --格式化以,分割l...

2020-12-01 21:15:20 155

原创 HIVE学习笔记-beeline的使用

HIVE学习笔记beeline常用数据类型:TINYINT 1byte有符号整数 20SMALLINT 2byte有符号整数 20INT ** 有符号整数 20BIGINT** 8byte有符号整数 20BOOLEAN 布尔类型,true或者false TRUE FALSEFLOAT 单精度浮点数 3.14159DOUBLE ** 双精度浮点数 3....

2020-11-29 20:15:46 2065

原创 zookeeper学习笔记2020-11-29

1 zookeeper简介1.1 zk的应用场景感知节点的状态写数据读数据1.2 zk的特性分布式协调工具分布式锁负载均衡统一域名zookeeper的高可用2 zk的客户端操作

2020-11-29 15:36:59 102

原创 zookeeper傻瓜式安装

1 上传安装包 解压tar -zxf zookeeper-3.4.6.tar.gz -C /opt/apps/2 修改配置文件在linux01解压包下创建一个zkData空文件夹 /opt/apps/zookeeper-3.4.6/zkDatamv zoo_sample.cfg zoo.cfgvi zoo.cfg# Set to "0" to disable auto purge feature#autopurge.purgeInterval=1server.1=linux

2020-11-29 14:59:05 123

原创 HIVE学习笔记(傻瓜式安装)

HIVE学习笔记(傻瓜式安装)2020-11-281 mysql数据 远程连接权限linux系统中mysql -uroot -p --输入密码登录进mysql中set global validate_password_policy=0; //----↓set global validate_password_length=1; //–>这个两个设置以后 密码很简单不会报错set password for root@localhost = password(‘root’); /

2020-11-28 21:14:44 181

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除