大数据
文章平均质量分 53
威风少侠
大数据开发工程师
展开
-
客户端提交flink任务到集群失败Clock skew too great
前两天公司客户端云主机提交flink任务到集群失败Clock skew too great(Linux时差过大超过5min提交失败)原创 2022-08-21 16:00:31 · 274 阅读 · 0 评论 -
spark创建hive外部表失败
问题1:spark版本问题一般碰到结尾为V,很可能是版本问题<spark.version>2.4.0</spark.version>问题2:一直报库不存在org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'user_profile0224' not found;解决办法:a.检查hadooponwindows-master环境变量b.增加配置.se.原创 2021-12-06 00:32:24 · 2210 阅读 · 1 评论 -
hbase shell操作
1.scanscan命令可以按照rowkey的字典顺序来遍历指定的表的数据。scan ‘表名’:默认当前表的所有列族。scan ‘表名’,{COLUMNS=> [‘列族:列名’],…} : 遍历表的指定列scan '表名', { STARTROW => '起始行键', ENDROW => '结束行键' }:指定rowkey范围。如果不指定,则会从表的开头一直显示到表的结尾。区间为左闭右开。scan '表名', { LIMIT => 行数量}: 指定返回的行的数量原创 2021-11-01 23:19:36 · 1779 阅读 · 0 评论 -
cdh6.3.2的hue操作hbase报错
错误1:hue集成hbase出现TSocket read 0 bytes参考1.hue集成hbase出现TSocket read 0 bytes_叛逆的鲁鲁修love CC的博客-CSDN博客参考2:CDH 6.3.1 hue 4.4 Api 错误:500 Server Error: Server Error for url: http://x.x.x.x:9090_BertramLAU的专栏-CSDN博客...原创 2021-11-01 22:44:10 · 152 阅读 · 0 评论 -
cdh6.3.2集成flink1.12.0(亲测有效)
CDH整合Flink(CDH6.3.2+Flink1.12.0)_mp9105的博客-CSDN博客报错1.队列问题Caused by: org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1636773988083_0034 to YARN : Application application_1636773988083_0034 submitted by user flink to un原创 2021-11-01 00:08:01 · 2103 阅读 · 2 评论 -
flinkcdc基于mysql亲测验证有效
1.修改mysql配置文件window下的my.ini# 验证flink cdc 可以自定义,但必须唯一# 验证flink cdc 可以自定义,但必须唯一server-id = 1# 可以自定义,binlog文件的前缀名log_bin=mysql-bin#必须是row binlog_format=ROW# 必须是full # binlog_row_image = FULLbinlog-do-db=bigdataflink代码package co原创 2021-10-30 00:05:25 · 2777 阅读 · 0 评论 -
CDH集群hue继承hdfs遇到问题
您是 Hue 管理员,但不是 HDFS 超级用户解决方法:1.cdh 中给root 赋值 hdfs 超级用户权限#Linux下默认是没有supergroup组的#hadoop:x:994:hdfs,mapred,yarncat /etc/group #查看hdfs用户的组是hadoop#hdfs:x:995:992:Hadoop HDFS:/var/lib/hadoop-hdfs:/sbin/nologincat /etc/passwd#所以,先在Linux添加s...原创 2021-08-18 15:34:43 · 1183 阅读 · 0 评论 -
Yarn的两种deploy-mode模式(client/cluster)
区别yarn 有两种模式,分别是 client 和 cluster,那么它们有什么区别呢?Driver的运行位置:client:Driver运行在Client端(即提交作业的机器);cluster:Driver运行在ApplicationMaster中;客户端是否能退出client:因为client会和请求到的Container进行通信来完成作业的调制和执行,所以不能退出;cluster:clinet只要提交完作业后就可以关掉,因为作业已经在yarn运行了;ApplicationMas原创 2021-07-27 11:46:52 · 1305 阅读 · 0 评论 -
CDH6.3.2搭建遇到问题
1.Cloudera 建议将 /proc/sys/vm/swappiness 设置为最大值 10参考:https://blog.csdn.net/weixin_34221276/article/details/919073582.透明大页面三台节点都执行如下命令echo never > /sys/kernel/mm/transparent_hugepage/defragecho never > /sys/kernel/mm/transparent_hugepage/...原创 2021-06-29 23:50:25 · 219 阅读 · 0 评论 -
spark的广播变量使用broadcast
使用广播, 大幅度减少 value 的复制def bc2(): Unit = { // 数据, 假装这个数据很大, 大概一百兆 val v = Map("Spark" -> "http://spark.apache.cn", "Scala" -> "http://www.scala-lang.org") val config = new SparkConf().setMaster("local[6]").setAppName("bc") val sc = ne原创 2021-06-22 15:39:56 · 274 阅读 · 0 评论 -
windows环境下安装kafka
Kafka安装流程1.安装zookeeper下载地址:https://zookeeper.apache.org/releases.html下载后,解压放在目录D:\bigdata(本文所用的目录)下,关于zookeeper以及kafka的目录,路径中最好不要出现空格,比如D:\Program Files,尽量别用,运行脚本时会有问题。①进入zookeeper的相关设置所在的文件目录,例如:D:\bigdata\zookeeper-3.4.10\conf②将"zoo_sample.cfg"重命名为原创 2021-05-26 17:57:41 · 1162 阅读 · 0 评论 -
VMware15安装centos7虚拟机教程
VMware15安装centos7虚拟机教程1.添加虚拟机2.设置安装位置和分区。(此处我试验的设置默认自动分区)centos7配置静态ipvi /etc/sysconfig/network-scripts/ifcfg-ens33TYPE=EthernetPROXY_METHOD=noneBROWSER_ONLY=noBOOTPROTO=staticDEFROUTE=yesIPV4_FAILURE_FATAL=no原创 2021-05-19 15:20:05 · 437 阅读 · 0 评论 -
hadoop2.7.5安装hive2.1.1启动报错Caused by: java.sql.SQLException: Access denied for user ‘root‘@‘node03‘
1.报错截图和日志hadoop2.7.5安装hive2.1.1启动报错Caused by: java.sql.SQLException: Access denied for user ‘root’@‘node03’ (using password: YES) at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:965)截图[root@node03 apache-hive-2.1.1-bin]# bin/hivewhich: n原创 2021-05-04 10:58:52 · 520 阅读 · 0 评论 -
centos6.9安装yum报错
yum install -y ntp加载插件:fastestmirror, security设置安装进程Loading mirror speeds from cached hostfileYumRepo Error: All mirror URLs are not using ftp, http[s] or file.Eg. Invalid release/repo/arch combination/removing mirrorlist with no valid mirrors: /var.原创 2021-05-01 14:57:45 · 1185 阅读 · 0 评论 -
sparkstreaming+Direct模式kakfa+手动提交offset到MySQL
package cn.itcast.streamingimport java.sql.{DriverManager, ResultSet}import org.apache.kafka.clients.consumer.ConsumerRecordimport org.apache.kafka.common.TopicPartitionimport org.apache.kafka.common.serialization.StringDeserializerimport org.apach.原创 2021-04-28 14:16:59 · 426 阅读 · 0 评论 -
spark中获取配置文件两种方式Properties和ConfigFactory
1.方式一:利用类加载器获取到指定的配置文件// 通过类的加载器获取到对应的配置文件val stream = getClass.getClassLoader.getResourceAsStream("application.conf")val prop = new Properties()prop.load(stream)val sqlUrl = prop.getProperty("db.url")println(sqlUrl)2方式二:利用Typesafe的Config库。Co原创 2021-04-21 08:56:36 · 2197 阅读 · 0 评论 -
spark数据倾斜问题
1.Spark出现数据倾斜场景:1.在join的时候,有很多数据的join的值为空值.那么这个时候所有空值的数据都会分配到一个task中从而出现数据倾斜解决方案:过滤空值2,当分区数设置过小,导致很多key聚集到一个分区从而导致数据倾斜解决方案:增大分区数3.某个key特别多的groupBy的时候出现倾斜解决方案:局部聚合+全局聚合4.大表join小表,因为大表中某一个key的数据特...原创 2019-10-31 21:31:05 · 214 阅读 · 0 评论 -
Spark调优
Spark性能优化task个数怎么划分设计需要两个方向同时考虑:1.spark程序的并行度[task个数=分区数]2.硬件资源方面:分区数=cpu核数2-3倍为什么需要调优Spark的性能调优由开发调优、资源调优、数据倾斜调优、shuffle调优几个部分组成。开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则,是高性能Spark作业的基础;数据倾斜调优,主要用一套完整...原创 2019-10-31 21:29:55 · 111 阅读 · 0 评论 -
Hive数据倾斜
Hive数据倾斜数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出现其他节点的reduce阶段任...原创 2019-10-31 21:28:09 · 195 阅读 · 0 评论 -
Hive优化(SQL)
Hive优化(SQL)1、where语句优化select m.cid,u.id from order m join customer u on( m.cid =u.id )where m.dt=‘20180808’;可优化为select m.cid,u.id from (select * from order where dt=‘20180818’) m join customer u o...原创 2019-10-31 21:26:32 · 272 阅读 · 0 评论 -
HBase定义 热点问题
HBase定义 热点问题HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是一个面向列的数据库,在表中它由行排序。表模式定义只能列族,也就是键值对。一个表有多个列族以及每一个列族可以有任意数量的列。后续列的值连续存储在磁盘上。表中的每个单元格值都具有时间戳。总之,在一个HBase:表是行的集合...原创 2019-10-31 21:25:17 · 140 阅读 · 0 评论 -
Redis分布式缓存
Redis的5种数据类型与常用命令. redis数据类型的使用场景和特点string: 可以使用json转换对象, 存储特点: 和 java中 string是类似的, 表示的就是字符串使用场景: 做缓存hash: 存储对象是比较方便的特点: 和 java中 hashMap是类似的使用场景: 做缓存 (hash使用较少)list:特点: 和 java中 linkedLi...原创 2019-10-31 21:21:19 · 110 阅读 · 0 评论 -
数据仓库分层模型
1.为什么分层?1.空间换时间2.便于计算3.逻辑清晰2.业务数据库(mysql,mongdb,oracle数据源)ODS(可操作数据层)DW(数据仓库层)DWD层 (数据明细层)负责数据的最细粒度的数据经过了ODS层清洗(去空),去重,去燥,去除大于或者小于一定阈值的明细数据。DWM层 (数据中间层)在DWD层基础上,进行轻度汇总,结合常用...原创 2019-10-31 21:16:52 · 18051 阅读 · 1 评论 -
spark任务执行流程
原创 2019-10-31 21:11:53 · 165 阅读 · 0 评论 -
sparkStreaming(一)
Spark Streaming(一)导读 介绍 入门 原理 操作 Table of Contents 1. Spark Streaming 介绍 2. Spark Streaming 入门 2. 原理 3. 操作 1. Spark Streaming 介绍导读 流式计算的场景 流式计算框架 ...原创 2019-10-31 21:09:51 · 121 阅读 · 0 评论 -
Spark Streaming(一)
Spark Streaming(一)导读介绍入门原理操作Table of Contents1. Spark Streaming 介绍2. Spark Streaming 入门2. 原理3. 操作1. Spark Streaming 介绍导读流式计算的场景流式计算框架Spark Streaming 的特点新的场景通过对现阶段一...原创 2020-11-14 19:20:32 · 123 阅读 · 0 评论 -
flink水印机制
一.flink区别水印机制使用水印解决网络延迟问题水印(watermark)就是一个时间戳,Flink可以给数据流添加水印,可以理解为:收到一条消息后,额外给这个消息添加了一个时间字段,这就是添加水印。水印并不会影响原有Eventtime当数据流添加水印后,会按照水印时间来触发窗口计算一般会设置水印时间,比Eventtime小几秒钟当接收到的水印时间 >= 窗口的endTim...原创 2019-10-31 21:00:34 · 1115 阅读 · 0 评论 -
数据仓库之拉链表
数据仓库之拉链表一、常用表介绍 1. 全量表 2. 增量表 3. 拉链表 4. 流水表 5. 拉链表 VS 流水表 二. 拉链表适用情况及优点 1. 适用情况 2. 优点 三. 拉链表举例(订单域) 1. 订单表结构 2. 为实现订单表存储,常用解决方案及存在问题 (1)快照表 (2)全量历史表 ==(3)历史拉链表== 3....转载 2019-10-30 11:32:00 · 1530 阅读 · 0 评论