大数据
东东的学习笔记666
保持学习。
展开
-
HBase中常见的参数分类整理(版本为HBase 1.1.2)
------------------Region-------------------hbase.hregion.max.filesize:默认10G,简单理解为Region中任意HStore所有文件大小总和大于该值就会进行分裂。解读:实际生产环境中该值不建议太大,也不能太小。太大会导致系统后台执行compaction消耗大量系统资源,一定程度上影响业务响应;太小会导致Region分裂比较频繁(分裂本身其实对业务读写会有一定影响),另外单个RegionServer中必然存在大量Region,太多Regi原创 2022-03-30 09:19:43 · 587 阅读 · 2 评论 -
flink exactly once和at least once的理解
exactly once VS at least once其实就是对非对齐barrier的理解。exactly once: 当程序恢复时, 下游的算子已经出现过的状态不会再出现一次, 而是继续往下消费,出现新的状态。at least once:当程序恢复时,下游的算子的某个分区,由于barrier早到了, 导致会继续往下消费数据。 上游source的偏移量在ck时就记录了,假设为a1, 当某个分区barrier先到达时, 下游算子状态为b1(注意,它对应的偏移量是a1), 但是由于要继续消费数据, .原创 2022-03-09 15:49:04 · 2657 阅读 · 2 评论 -
flinksql client使用
sql-client.sh embedded -d ~/sql-client-defaults.yamlcreate table test0311( a0 VARCHAR, a1 VARCHAR, a2 VARCHAR, a3 VARCHAR, a4 VARCHAR, a5 VARCHAR, a6 VARCHAR, a7 VARCHAR, a8 VARCHAR, a9 VARCHAR, a10 VARCHAR, a11 VARCHAR, a原创 2022-03-02 10:07:05 · 468 阅读 · 0 评论 -
flink常见报错
rescaling from unaligned checkpoint is not yet supportedflink1.12不支持非对齐检查点恢复原创 2022-02-08 14:39:03 · 854 阅读 · 0 评论 -
flink的slot和线程关系
以前误认为一个slot一个线程,这是错误的,正确的如下:Flink中slot数量代表了所有最高能支持的subtask数量。也就是整个任务的最高并发度,但是并不代表一个线程的概念,内部也是可以启动很多线程的。...原创 2022-01-07 08:48:31 · 2107 阅读 · 0 评论 -
优化tez引擎-资源限制
1. 参数set tez.am.resource.memory.mb=4096; // 与yarn.scheduler.minimum-allocate-mb YARN最小容器大小相同set tez.runtime.io.sort.mb=1638; // hive.tez.container.size的40%set hive.auto.con原创 2021-11-08 16:36:48 · 4790 阅读 · 0 评论 -
HDP聚合日志解析内容-ifile和tfile
解析hdfs上的聚合日志, 共4个类, 打包后上传到服务器, 将hdfs上的日志文件下载到本地, 使用命令java -jar 包名 日志路径名效果图:代码:package YarnLogFileReader;import org.apache.commons.lang3.SerializationUtils;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;im原创 2021-11-08 00:46:44 · 1918 阅读 · 0 评论 -
Docker一键搭建HDP3.0.1
下载镜像, 26G大小。docker pull hortonworks/sandbox-hdp:3.0.1docker pull hortonworks/sandbox-proxy:1.0-下载安装脚本git clone https://github.com/dounine/sandbox-hdp-3.0.1.git添加host映射vi /etc/hosts# 加入如下127.0.0.1 sandbox-hdp.hortonworks.com启动./docker-dep.原创 2021-10-31 03:18:43 · 1514 阅读 · 0 评论 -
自制Flink Parcel集成CDH(Flink1.12.0 + CDH6.3.2)
记录制作flink parcel环境(虚拟机,系统CentOS7.6)(1)jdk1.8(2)maven3.6.1(3)parcel制作工具1.jdk1.8下载jdk1.8版本并上传到虚拟机的指定目录下,我的目录是/app解压jdk到当前目录tar -zxvf /app/jdk-8u151-linux-x64.tar.gz -C .重命名mv jdk1.8.0_151/ jdk配置系统环境变量vim /etc/profile在最后添加:export JAVA_HOME=/ap原创 2021-10-06 01:46:00 · 1040 阅读 · 3 评论 -
Hbase笔记
旧hbase架构HMasterZookeeperregionserverhregion读数据流程写数据流程Hlog原创 2021-08-29 01:27:21 · 127 阅读 · 0 评论 -
spark streaming限制吞吐
使用spark.streaming.receiver.maxRate这个属性限制每秒的最大吞吐。官方文档如下:Maximum rate (number of records per second) at which each receiver will receive data. Effectively, each stream will consume at mostthis number of records per second. Settingthis configuration to0 or原创 2021-08-05 19:27:07 · 321 阅读 · 0 评论 -
服务器磁盘检测命令
hdparm -Tt /dev/sda3测试读性能time dd if=/dev/mapper/centos-home bs=1024 count=1000000 of=/10Gb.file测试写性能原创 2021-07-13 14:31:21 · 352 阅读 · 0 评论 -
sparkstreaming + sparksql实现ETL操作
代码磨了半天做个记录(删了业务相关的代码):spark-2.4.0Oracle2ODPS例子:import aliyun.spark.test.odps2oracle.util.MessageMapperUtilOracle;import aliyun.spark.test.util.PropertiesUtil;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark原创 2021-06-28 19:41:41 · 627 阅读 · 1 评论 -
CDH版Jar包下载
<repositories> <repository> <id>cloudera.repos</id> <url>https://repository.cloudera.com/content/repositories/releases/ </url> <name>Cloudera Public Repositories</name> <.原创 2021-06-03 18:34:24 · 396 阅读 · 0 评论 -
Caused by: org.apache.kafka.common.errors.TimeoutException: Timeout expired after 60000milliseconds
org.apache.kafka.common.errors.TimeoutException: org.apache.kafka.common.errors.TimeoutException: Timeout expired after 60000milliseconds while awaiting InitProducerId今天kafka集群坏了一块硬盘,导致flink疯狂重启, 找到报错如下:org.apache.kafka.common.errors.TimeoutException: o原创 2021-05-17 18:41:47 · 7785 阅读 · 0 评论 -
A start job is running for /sysroot (3min 59s / 4min 31s)
A start job is running for /sysroot (3min 59s / 4min 31s)报错大概是这样, 原因是服务器内存爆了导致死机,ssh登无法连接,原因是文件系统io不一致,造成服务器无法正常启动,卡在这里。解决方法进入单用户模式时, 修改启动参数,让启动时候不要挂载系统盘xfs_repair -v -L /dev/dm-0 命令修复文件系统mount文件系统看看结果重启解决方法几句话,呆了一天的机房,请了运维部的人来搞都没弄好,差点重装系统~~ 关键时候原创 2021-05-11 23:47:13 · 3307 阅读 · 0 评论 -
MapReduce排序问题
排序是MapReduce的灵魂,MapReduce在Map和Reduce的两个阶段当中,都在反复地执行排序。在MapReduce中有两种排序方式,分别是快速排序和归并排序——快速排序:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。归并排序:归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and原创 2021-05-06 12:48:46 · 839 阅读 · 1 评论 -
Hadoop多路径输入输出
需求描述当我们得意于 MapReduce 从一个数据输入目录,把数据经过程序处理之后输出到另一个目录时。可能你正在错过一些更好的方案,因为 MapReduce 是支持多路径的输入与输出的。比如,你一个项目中的多个 Job 产生了多个输出路径,后面又需要另一个 Job 去处理这些不路径下的数据。你要怎么办?暂停程序后,手动处理?设计思路写了这么多的 MapReudce 的程序,我想你一定已经了解了 MapReduce 是如何将输入的数据加载到程序中进行计算的了。一般情况下,我们是通过 FileInp翻译 2021-05-06 02:29:11 · 507 阅读 · 0 评论 -
hadoop异常:java.io.EOFException
at java.io.DataInputStream.readFully(DataInputStream.java:197)解决方法:序列文件的问题,最后结尾的时候没有关闭write(),导致生成的序列文件有问题其实不是这个原因, 根本原因是mapper输出的数据没有序列化。是否使用了TEXT, 改成其它的bean,序列化一下就好了...原创 2021-05-05 03:17:52 · 710 阅读 · 0 评论 -
Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.Lon
Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.LongWritable今天在写MapReduce时遇到了这个问题,这个问题的解释是:来自map的键类型不匹配:expected org.apache.hadoop.io文本,收到org.apache.hadoop.io.LongWritable,也就是说从map到reduce的输出格式装换错误,或者没有定义,即使原创 2021-04-29 23:59:49 · 3283 阅读 · 0 评论 -
mapreduce原理
原创 2021-04-21 16:31:42 · 98 阅读 · 0 评论 -
flink源码编译
GitHub拉取flink源码,版本1.12.0省略。。。配置maven镜像以及node镜像,不然会很慢或者报无法下载,报错<mirror> <id>huaweicloud</id> <mirrorOf>*</mirrorOf> <url>https://mirrors.huaweicloud.com/repository/maven/</url></mirror>Node.原创 2021-03-29 00:33:59 · 1012 阅读 · 0 评论 -
记录Flink那些经典线上问题
这些问题大部分都遇到过, 记录一下。数据倾斜导致子任务积压业务背景一个流程中,有两个重要子任务:一是数据迁移,将kafka实时数据落Es,二是将kafka数据做窗口聚合落hbase,两个子任务接的是同一个Topic GroupId。上游 Topic 的 tps 高峰达到5-6w。问题描述给 24个 TaskManager(CPU) 都会出现来不及消费的情况问题原因做窗口聚合的任务的分组字段,分组粒度太小,hash不能打散,数据倾斜严重,导致少数 TaskManager 上压力过大,从而影响落E原创 2021-03-19 16:32:31 · 568 阅读 · 1 评论 -
docker安装kafka和简单命令使用
安装zookeeperdocker run -d --name zookeeper -p 2181:2181 -v /etc/localtime:/etc/localtime wurstmeister/zookeeper安装kafkadocker run -d --name kafka -p 9092:9092 -e KAFKA_BROKER_ID=0 -e KAFKA_ZOOKEEPER_CONNECT=192.168.255.130:2181 -e KAFKA_ADVERTISED_L.原创 2020-11-10 20:20:07 · 384 阅读 · 0 评论 -
Oracle dump数据
目前使用到:exp 账号/密码@实例名 file=文件名.dmp tables=表名例子:exp 'abc2020/"Gk@xxd"@orcl' file=/home/bigdata/abc.dmp filesize=2G tables=E_MP_XXD原创 2020-11-02 01:07:54 · 201 阅读 · 0 评论 -
解决 CDH6 启动 cloudera-scm-server 失败问题
最近尝试在 CentOS7 上使用 Cloudera CM 搭建 CDH6 的集群,安装好了cloudera-manager-daemons、cloudera-manager-agent、cloudera-manager-server 后,通过systemctl start cloudera-scm-server,一直没有成功启动服务。看到的都报错的信息:Failed to start Cloudera CM Server Service.而且没有任何更多的日志,包括/var/log/cloudera原创 2020-11-01 23:23:17 · 4913 阅读 · 0 评论 -
spark梳理笔记
梳理一下Spark中关于并发度涉及的几个概念File,Block,Split,Task,Partition,RDD以及节点数、Executor数、core数目的关系。输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputS翻译 2020-10-04 12:17:07 · 164 阅读 · 0 评论 -
本地调试hadoop mapreduce踩坑记录
相信大家踩过无数hadoop的天坑, 我只是想在windows上调试下程序为什么这么麻烦呢?hadoop安装能正确安装hadoop是调试程序的关键。。下载地址:http://archive.apache.org/dist/hadoop/core/我选择的是2.7.1版本的配置环境变量配好环境变量,在命令行运行 hadoop version,会报错如果此时出现以下错误:The system cannot find the batch label specified - make原创 2020-09-05 11:10:50 · 876 阅读 · 1 评论 -
linux创建非root
useradd -d /home/sgbigdata -m sgbigdatapasswd sgbidata如果没sudo命令,yum install -y sudo修改权限:输入visudo命令(其实就是修改/etc/sudoers)修改文件:root ALL=(ALL) ALLbigdata ALL=(root)NOPASSWD:ALLsgbigdata ALL=(ALL) NOPASSWD:/usr/sbin/useradd,/usr/sbin/userdel,/usr/sbin原创 2020-08-24 10:56:15 · 398 阅读 · 0 评论 -
Maxcompute分区表操作
1.创建分区表create table aaa(id bigint,name string) partitioned by (address string);2.创建分区字段alter table aaa add if not exists partition (address = ‘fujian’);3.向分区表里插入数据insert into aaa partition(address = ‘fujian’) values(1,‘xxd’);4.查询分区表数据select * from a原创 2020-08-13 15:23:10 · 1548 阅读 · 0 评论