- 博客(19)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 flink学习及案例实战
文章目录集群模型和角色资源和资源组分布式缓存故障恢复和重启策略故障恢复fullregion重启策略Exactly-once过程窗口和时间窗口时间反压问题反压指标反压处理数据倾斜GC代码本身数据倾斜原因两阶段聚合解决 KeyBy 热点解决方案GroupBy + Aggregation 分组聚合热点问题解决方案Flink 消费 Kafka 上下游并行度不一致导致的数据倾斜解决方案Flink 维表关联实时查询维表预加载全量数据LRU 缓存Flink 去重基于状态后端基于 HyperLogLog基于布隆过滤器()基
2020-10-21 11:22:58 1569 1
原创 Hadoop完全分布式部署(超全)
Hadoop完全分布式部署1、配置vm共享文件夹注意:主要是实现window与虚拟机之间的文件共享,如果用实体机的,就不需要这步1.1 linux系统创建共享目录mkdir -p /work/software/share1.2 vm配置共享文件夹2、配置vm网络vm安装步骤看这三台服务器ip为:hdp01 192.168.10.133hdp02 192.168.10.134hdp03 192.168.10.1353、配置虚拟机注意:以下内容三台服务器同样配置(以第一台服务
2020-10-21 10:22:37 3481
原创 HDP内存配置设置方法
文章目录HDP内存配置设置方法1.1手动计算YARN和MapReduce内存配置设置1.1.1 配置案例1.1.2 笔记1.1.3 在YARN上配置MapReduce内存设置1、 每个Map和Reduce任务的物理RAM限制。2、 每个任务的JVM堆大小限制。3、 每个任务将接收的虚拟内存量。1.2 使用HDP Utility脚本计算内存配置设置HDP内存配置设置方法可以使用两种方法来确定YARN和MapReduce内存配置设置: 1.手动计算YARN和MapReduce内存配置设置. 2.使用
2020-09-26 10:47:41 933
原创 Ambari2.7.3 + HDP3.1.0 集群搭建手册
文章目录工具包下载准备工作 (所有机器)安装 vim 编辑器修改系统语言服务器防火墙关闭关闭 iptables关闭 firewalld修改主机名及机器映射修改各个节点的名称修改 hosts 文件重启电脑服务器的免登陆删除openJDK检查是否安装 JDK查找他们的安装包删除全部,noarch 文件可以不用删除检查是否删除服务器时间同步安装 ntp 服务设置 master 为主服务器,开启 nptd...
2020-02-06 17:13:50 2345
原创 Canal教程
Canal介绍简介基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger(触发器) 获取增量变更从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务,基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务 cache 刷新带业务逻辑的增量数据处理当前的
2021-04-02 12:19:17 634
原创 maxwell + kafka + bireme传统数仓实时同步方案
文章目录1. mysql(maridb) 开启binlog1.2 创始用户及表2. maxwell2.1 输入到控制台2.2 输出到kafak2.2.1 kafak-topic2.2.2 配置3. bireme1. mysql(maridb) 开启binlogSHOW VARIABLES LIKE '%log_bin%';+---------------+-------+| Variable_name | Value |+---------------+-------+| log_bin
2021-03-24 21:58:36 798
原创 Nosql之redis
NoSqlNoSql入门和概述入门概述1.互联网时代背景下大机遇,为什么用nosql1.单机MySQL的美好时代一个网站的访问量一般都不大,而且更多的是静态页面,动态交互类型的网站不多,用单个数据库完全可以轻松应对。上述架构下,数据存储的瓶颈是什么?数据量的总大小一个机器放不下时数据的索引(B+Tree)一个机器的内存放不下时访问量(读写混合)一个实例不能承受2.Memcached(缓存)+MySQL+垂直拆分随着访问量的上升,几乎发部分使用MySQL架构的网站在数据库上都
2021-01-10 21:02:58 331
原创 数据仓库建模理论
数据仓库建模理论1、关系模式范式只列前三种1.1、第一范式(1NF)域都应该是原子性的,即数据库表的每一列都是不可分割的原子数据项1.2、第二范式(2NF)在1NF的基础上,实体的属性完全依赖于主关键字,不能存在仅依赖主关键字一部分的属性1.3、第三范式(3NF)在2NF的基础上,任何非主属性不依赖于其它非主属性2、数据仓库建模基本理论2.1、ER实体模型在信息系统中,将事物抽象为“实体”、“属性”、“关系”来表示数据关联和事物描述;实体:Entity,关系:Relationship,
2020-11-24 22:33:57 743
原创 Spark On AEL(Adaptive Execution Layer)
文章目录Spark On AEL(Adaptive Execution Layer)一、前期准备: 二、pentaho 部署 三、Spark client四、Pentaho Spark客户端五、本地模式配置AEL后台进程六、yarn模式配置AEL后台进程七、配置事件日志八、配置AEL后台程序连接hive九、PDI demo十、社区版pdi需要新加入文件配置1、配置java环境变量以及AEL涉及的环境变量2、安装各种依赖,以及处理出现的问题(1)安装依赖(2)出现的问题2.2.1 没有可用webkitgtk包
2020-11-20 12:54:08 1179
原创 CDA-分角色&用户查询
参数pentaho获取当前角色:${[security:principalRoles]}pentaho获取当前用户:${[security:principalName]}CDA示例-按角色查询(sql jndi)详见和标签,控制只有administrator角色的用户可以查询到数据<?xml version="1.0" encoding="utf-8"?><CDADescriptor> <!-- DataSource definition.
2020-11-20 12:51:04 286
原创 Pentaho RestAPI用户&角色管理
来源:https://help.pentaho.com/Documentation/8.3/Developer_center/REST_API_Reference/User_Role_Management/0O0以下介绍的Rest API用以PBA的安全用户&角色的管理:创建、删除用户角色给用户分配角色获得某角色下的用户列表给角色赋予权限修改用户密码Pentaho Rest API的通用格式为:[server path]/[rest path]/[query parameter
2020-11-20 12:50:03 545
原创 CDA-Community Data Access规则
CDA-Community Data Access(来源:https://community.hitachivantara.com/s/article/community-data-access)简介CDA为多种数据源提供了灵活性,它可以同时连接多个数据源来检索数据,通过API将数据提供给第三方。主要功能:通过编辑XML就可以从多个不同数据源中联合查询数据。缓存查询机制可以大大提高查询性能避免CDF中的sql注入问题在PUC使用CDA,查询结果可以导出多种数据格式(csv,xls,etc
2020-11-20 12:47:35 603
原创 CDA以API为数据源
CDA以API为数据源:Connection-type为scripting.scriptingDataAccess-type为scritable示例以Basic-Auth认证的CDA的API为数据源,编写CDA:需要注意的是url中的字符需要转译。<?xml version="1.0" encoding="UTF-8"?><CDADescriptor> <DataSources> <Connection id="1" type="scrip
2020-11-20 12:46:32 211
原创 Pig学习教程
Pig学习1、Pig Latin简介Pig是用来处理大规模数据的高级查询语言,结合Hadoop使用,可以在处理海量数据时达到事半功倍的效果。Pig语句通常按照如下的格式来编写:❑通过LOAD语句从文件系统读取数据。❑通过一系列“关系转换”语句对数据进行处理。❑通过STORE语句把处理结果输出到文件系统中,或使用DUMP语句把处理结果输出到屏幕上。Pig有两种运行模式:Local模式和MapReduce模式。Pig Latin是一种面向数据流的编程语言,一条语句就是一个操作,得
2020-11-07 16:28:30 2564
原创 Hadoop存储——HDFS
文章目录Hadoop存储——HDFS1、HDFS架构(1)名称节点(NameNode)(2)数据节点(DataNode)(3)第二名称节点(Secondary NameNode)2、HDFS文件上传3、MapReduce过程可以解析为如下所示:4. MapReduce组件分析与编程实践4.1.Combiner分析4.2.Partitioner分析4.3.输入输出格式/键值类型4.3.1 输入格式(InputFormat)4.3.2输出格式(OutputFormat)![image-2020092323074
2020-10-21 12:46:29 1448
原创 hive学习教程
1、Hive体系架构如图3-1所示,Hive体系架构可以分为4部分。1.1❑用户接口。用户与Hive交互主要有3种方式:CLI(Hive命令行模式)、Client(Hive的远程服务)和WUI(Hive的Web模式)。CLI方式主要用于Linux平台命令行查询。WUI方式是Hive的Web界面访问方式,通过浏览器访问Hive。Client是Hive的客户端,连接至远程服务HiveServer2。1.1.1 JDBC连接Hive代码import java.sql.Connection;impor
2020-09-29 09:19:41 471
原创 Flink代码及ui界面应用
文章目录Flink和Spark各自优劣底层机制SparkFlink运用支持语言Flink运行代码maven配置source部分&transform模块sink模块执行1、命令行执行2、Flink web ui配置job执行日志task manager日志Flink和Spark各自优劣底层机制SparkSpark的数据模型是弹性分布式数据集 RDD,这个内存数据结构使得spark可以通过固定内存做大批量计算。初期的Spark Streaming是通过将数据流转成批(micro-batches)
2020-09-25 12:32:26 3334
原创 Flink部署及集群(高可用)
文章目录Flink部署1、下载2、解压3、启动Flink3、开放端口80814、访问ui界面5、测试6、ui界面信息Flink集群配置1、资源分配:2、配置flink-conf.yaml文件3、配置masters文件4、配置slaves文件5、开放8899端口6、启动测试Flink实现JobManager High Availability (HA)修改配置文件启动 flink测试高可用是否生效问题集1、启动Flink报错:Flink部署1、下载官网下载地址:http://flink.apache.o
2020-09-25 12:31:09 1914
原创 kafka日常之重要操作
文章目录Kafka1、Kafka架构单节点单 brokerZookeeper 配置Kafka 配置topicKafka 创建 topic查看当前有多少个 tpoic启动生产者产生消息启动消费者读取消息查看某个 topic 详细信息查看所有 topic 详细信息获取目前对应topic的offset获取消费组状态和用到的topic初始化topic偏移量删除topicKafka注意 Kafka 需要依附在 Zookeeper 上1、Kafka架构producer:生产者consumer:消费者b
2020-09-24 22:50:37 295
零点起飞学c++
2015-05-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人