HBase中常见的参数分类整理(版本为HBase 1.1.2) ------------------Region-------------------hbase.hregion.max.filesize:默认10G,简单理解为Region中任意HStore所有文件大小总和大于该值就会进行分裂。解读:实际生产环境中该值不建议太大,也不能太小。太大会导致系统后台执行compaction消耗大量系统资源,一定程度上影响业务响应;太小会导致Region分裂比较频繁(分裂本身其实对业务读写会有一定影响),另外单个RegionServer中必然存在大量Region,太多Regi
flink exactly once和at least once的理解 exactly once VS at least once其实就是对非对齐barrier的理解。exactly once: 当程序恢复时, 下游的算子已经出现过的状态不会再出现一次, 而是继续往下消费,出现新的状态。at least once:当程序恢复时,下游的算子的某个分区,由于barrier早到了, 导致会继续往下消费数据。 上游source的偏移量在ck时就记录了,假设为a1, 当某个分区barrier先到达时, 下游算子状态为b1(注意,它对应的偏移量是a1), 但是由于要继续消费数据, .
flinksql client使用 sql-client.sh embedded -d ~/sql-client-defaults.yamlcreate table test0311( a0 VARCHAR, a1 VARCHAR, a2 VARCHAR, a3 VARCHAR, a4 VARCHAR, a5 VARCHAR, a6 VARCHAR, a7 VARCHAR, a8 VARCHAR, a9 VARCHAR, a10 VARCHAR, a11 VARCHAR, a
flink的slot和线程关系 以前误认为一个slot一个线程,这是错误的,正确的如下:Flink中slot数量代表了所有最高能支持的subtask数量。也就是整个任务的最高并发度,但是并不代表一个线程的概念,内部也是可以启动很多线程的。...
导入mysql常用脚本 替换文本中的字符串并批量source#! /bin/bashfor line in $(<tables)do table=${line,,} echo "开始导入"${table} cat ./table/${table} |grep -o "CREATE TABLE.*" > ./table_new/${table} sed -i "s/\\//g" ./table_new/${table} ec.
优化tez引擎-资源限制 1. 参数set tez.am.resource.memory.mb=4096; // 与yarn.scheduler.minimum-allocate-mb YARN最小容器大小相同set tez.runtime.io.sort.mb=1638; // hive.tez.container.size的40%set hive.auto.con
HDP聚合日志解析内容-ifile和tfile 解析hdfs上的聚合日志, 共4个类, 打包后上传到服务器, 将hdfs上的日志文件下载到本地, 使用命令java -jar 包名 日志路径名效果图:代码:package YarnLogFileReader;import org.apache.commons.lang3.SerializationUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;im
Docker一键搭建HDP3.0.1 下载镜像, 26G大小。docker pull hortonworks/sandbox-hdp:3.0.1docker pull hortonworks/sandbox-proxy:1.0-下载安装脚本git clone https://github.com/dounine/sandbox-hdp-3.0.1.git添加host映射vi /etc/hosts# 加入如下127.0.0.1 sandbox-hdp.hortonworks.com启动./docker-dep.
自制Flink Parcel集成CDH(Flink1.12.0 + CDH6.3.2) 记录制作flink parcel环境(虚拟机,系统CentOS7.6)(1)jdk1.8(2)maven3.6.1(3)parcel制作工具1.jdk1.8下载jdk1.8版本并上传到虚拟机的指定目录下,我的目录是/app解压jdk到当前目录tar -zxvf /app/jdk-8u151-linux-x64.tar.gz -C .重命名mv jdk1.8.0_151/ jdk配置系统环境变量vim /etc/profile在最后添加:export JAVA_HOME=/ap
阿里云Maven仓库完整版 阿里云Maven仓库完整版<?xml version="1.0" encoding="UTF-8"?><!--Licensed to the Apache Software Foundation (ASF) under oneor more contributor license agreements. See the NOTICE filedistributed with this work for additional informationregarding copy
spark streaming限制吞吐 使用spark.streaming.receiver.maxRate这个属性限制每秒的最大吞吐。官方文档如下:Maximum rate (number of records per second) at which each receiver will receive data. Effectively, each stream will consume at mostthis number of records per second. Settingthis configuration to0 or
服务器磁盘检测命令 hdparm -Tt /dev/sda3测试读性能time dd if=/dev/mapper/centos-home bs=1024 count=1000000 of=/10Gb.file测试写性能
sparkstreaming + sparksql实现ETL操作 代码磨了半天做个记录(删了业务相关的代码):spark-2.4.0Oracle2ODPS例子:import aliyun.spark.test.odps2oracle.util.MessageMapperUtilOracle;import aliyun.spark.test.util.PropertiesUtil;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark