大数据
文章平均质量分 79
拉普达男孩
这个作者很懒,什么都没留下…
展开
-
记录spark-streaming-kafka-0-10_2.11的2.3.2版本StructuredStreaming水印除重操作OOM解决
代码主要部分: val df = kafkaReadStream(spark, KAFKA_INIT_OFFSETS, KAFKA_TOPIC) .option("maxOffsetsPerTrigger",1000)//限流:对每个触发器间隔处理的最大偏移量的速率限制。指定的偏移量总数将按比例划分到不同卷的topicPartitions上。 .option("fetchOffset.numRetries",3)//尝试次数 .option("failOnDa原创 2021-09-10 17:42:18 · 1481 阅读 · 0 评论 -
StructuredStreamingKafka配置问题以及group.id问题以及修改offsets问题
读取Kafka数据的时候,KafkaSourceProvider 类中的createMicroBatchReader 函数体中有对option() 中设置的Kafka参数进行校验及设置默认参数:必填参数:duisubscribe,startingOffsets,failOnDataLoss进行判断。如果要对默认参数进行修改或者添加新的配置,通过 option("Kafka.xx","") 进行设置。由于在KafkaSourceProvider 类对Kafka设置的参数做了过滤处理 因此,设置Ka原创 2021-03-10 17:15:13 · 1929 阅读 · 0 评论 -
Consul相关知识博客链接
Consul分布式搭建 Consul 快速入门 consul集群搭建及spring cloud集成转载 2020-10-12 15:40:21 · 262 阅读 · 1 评论 -
SpringBoot Service全局变量创建连接,关闭异常问题原因与解决
业务场景步骤:前端获取JSON参数 封装成ES查询语句,HttpClient的RestClient低阶API查询ES方式查询 查询ES表数据 ES表数据逐条匹配redis数据,处理数据 封装成AOP统一约定的JSON返回体出错时间:前端查询大约100条以内 前端查询大约第二天错误示例:16:03:22.206 [http-nio-8888-exec-3] ERROR xx.aop.advice.LogAdvice - This is after throw from LogAdv原创 2020-09-27 18:08:26 · 559 阅读 · 0 评论 -
单例模式:懒汉模式
所谓“懒汉式”与“饿汉式”的区别,是在与建立单例对象的时间的不同。“懒汉式”是在你真正用到的时候才去建这个单例对象 “饿汉式是在类创建的同时就已经创建好一个静态的对象,不管你用的用不上,一开始就建立这个单例对象代码实现:懒汉模式:public class Singleton2 { private volatile static Singleton2 singleton; // 5 private Singleton2() { Sys.转载 2020-09-14 15:33:51 · 3905 阅读 · 2 评论 -
Hadoop单机模式以及伪分布模式
jdk安装wget --no-check-certificate --no-cookies --header "Cookie:oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u131-bll/d54c1d3a095b4ff2b6607d096fa80163/jdk-8u131-linux-x64.rpm存在java8:openjdkroot@Kylin:~# java -v原创 2020-07-13 13:43:26 · 1444 阅读 · 0 评论 -
Spark本地环境
1.安装windows版本Hadoop配置环境变量2.安装ScalaPath:;%MAVEN_HOME%;%MAVEN_HOME%\bin;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;%JAVA_HOME%\lib;%JAVA_HOME%\jre\lib\;%TOMCAT_HOME%\bin;%SCALA_HOME%\bin;%SCALA_HOME%\jre\bin;%SPARK_HOME%\bin;%MYSQL_HOME%\bin;原创 2020-06-19 11:37:17 · 229 阅读 · 0 评论 -
每日任务Scala语言Spark读Hive表写MongoDB内嵌文档格式
Hive表:name的时间流水数据。name数据可能是一条,可能多条数据。name time d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 d11 d12 d13 d14 d15 1 1563764501 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 156376原创 2020-06-16 12:10:10 · 485 阅读 · 1 评论 -
SqoopHDFS到MySQL报错:缺少lzo压缩包
错误日志:20/06/05 16:27:07 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.原创 2020-06-09 08:53:40 · 623 阅读 · 0 评论 -
CDH或者大数据平台提交Spark任务shell方式
##增加Kerberos认证,使用xxx.keytabl秘钥spark-submit --principal yong_hu_ming@xxx.COM \ --keytab yong_hu_ming.keytab \ --class com.xx.compute.Job20200525 \ --master yarn \ --deploy-mode cluster \ --num-executors 90 \ --driver-memory 7g \.原创 2020-06-04 14:30:51 · 810 阅读 · 0 评论 -
Hive SQL(持续更新)
1.建Orc压缩格式的数据库CREATE TABLE IF NOT EXISTS ods.test( id STRING COMMENT 'id',time INT COMMENT 'can data time of server time', datas STRING COMMENT 'data')comment ' with partition type first then years then months then days'PARTITIONED BY (type STRING,原创 2020-06-02 08:50:50 · 305 阅读 · 0 评论 -
CDH Oozie 时钟参数设置传入
${coord:formatTime(coord:dateOffset(coord:nominalTime(),0,'DAY'),'yyyyMMdd')}例如:每日00:10:00运行运行时查看xml:<coordinator-app name="My_Schedule_Part" frequency="10 0 * * *" start="${start_date}" end="${end_date}" timezone="Antarctica/Casey" x...原创 2020-06-01 16:20:39 · 1120 阅读 · 3 评论 -
Kafka配置属性
Kafka配置信息详解Broker配置信息 属性 默认值 描述 broker.id 必填参数,broker的唯一标识 log.dirs /tmp/kafka-logs Kafka数据存放的目录。可以指定多个目录,中间用逗号分隔,当新partition被创建的时会被存放到当前存放partition最少的目录。 ..原创 2020-05-29 10:47:41 · 1384 阅读 · 0 评论 -
HiveSQL调配设置参数(持续更新)
set hive.exec.dynamic.partition.mode=nonstrict;#首个分区也未知,导入数据设置为动态分区set mapred.max.split.size=2048000000#Map操作之前合并小文件:每个Map最大输入大小设置为2GB(单位:字节)set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat#执行Map前进行小文件合并set hive.merge.mapfiles .原创 2020-05-29 09:29:13 · 846 阅读 · 0 评论 -
CDH集群数据迁移distcp
环境为CDH6脚本方式:echo "123456" | kinit wnjhadoop distcp -Ddistcp.bandwidth=500000000 -Dipc.client.fallback-to-simple-auth-allowed=true hdfs://10.44.200.101:8020/user/wnj/hivetable/test/ /user/hive/warehouse/test/-Ddistcp.bandwidth=500000000 带宽设置为500M.原创 2020-05-19 12:00:48 · 1288 阅读 · 1 评论 -
HIVE添加UDF函数
Hive添加自定义UDF函数Java代码编写自定义编写UDF需要的继承类开发自定义UDF函数需要继承’org.apache.hadoop.hive.ql.exec.UDF’类。Maven的pom依赖<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncod...原创 2020-04-29 16:08:27 · 1015 阅读 · 0 评论 -
Scala Spark HFileOutputFormat2.configureIncrementalLoadMap写HFile并doBulkLoad方式导入到HBase
Spark写HFile不太建议:1)一般写HFile是因为数据量很大,才使用这种方式,不然一般的API就可以满足;2)用Spark写大量数据,中途需要去做排序,需要很大的内存与CPU,这种资源的使用是巨大的。3)因为Executor内存的限制,CPU的限制,每次能写的数据量是有限的,并不能像MR一样可以写2T的数据或者更多。4)Spark代码还是很费时的,在排序的时候。MR3个月...原创 2019-11-27 14:43:04 · 1256 阅读 · 0 评论 -
多MapReduce任务
在写HFile过程中:1)因为存在相同rowkey的数据有很多,存在大的时间戳数据覆盖小的时间戳数据的情况;2)还有如果全部数据都写成HFile,生成的HDFS数据集会很大,以本代码为案例,每次生成2T的数据量;3)所有数据导入到HBase之后,HBase会根据HFile最大存储值进行SplitRegions。这会导致HBase表性能受限。4)所有的数据覆盖处理,都由HBase的c...原创 2019-11-27 10:47:59 · 323 阅读 · 0 评论 -
MapReduce写HFile,doBulkLoad方式批量导入到HBase(用 HFileOutputFormat2.configureIncrementalLoadMap方式推荐)
上一章博文分析了HFileOutputFormat2.configureIncrementalLoad的使用方法以及弊端。讲述了configureIncrementalLoad内部源码已经给我们设定了Reduce过程,包括map和reduce的输出格式(KeyValue或者Put)、reduce的数量等。而configureIncrementalLoadMap方法没有,所以在生成j...原创 2019-11-22 09:59:16 · 1571 阅读 · 0 评论 -
MapReduce写HFile,doBulkLoad方式批量导入到HBase(用 HFileOutputFormat2.configureIncrementalLoad方式不推荐)
package com.xxx.xxxx.hivetable.xxxx.usepartition.five_min_xxx_to_hbase;/** * 2019/11/20 */import org.apache.hadoop.hbase.mapred.TableOutputFormat;import org.apache.hadoop.conf.Configuration;imp...原创 2019-11-21 09:11:12 · 1440 阅读 · 0 评论 -
MapReduce写HFile:Permission denied: user=xxx, access=EXECUTE
错误日志:Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.JavaMain], main() threw exception, org.apache.hadoop.security.AccessControlException: Permission denied: user=wang.nengjie,...原创 2019-11-20 14:52:04 · 410 阅读 · 1 评论 -
Sqoop安装与MapReduce读MySql写HDFS加载不了JDBC驱动问题
安装Sqoop1.下载原创 2017-09-21 11:14:40 · 1511 阅读 · 0 评论 -
HBase集群搭建1Master、2Slaves
HBase集群Master.Hadoop 10.9.148.21 master(root,123456) /softs/hbase /softs/ hbase/logsSlave1.Hadoop 10.9.148.26 slave1(root,123456) /softs/hbase /softs/ hbase/logsSlave2.Hadoop 10.9.148.23 sla原创 2017-08-29 15:24:07 · 1447 阅读 · 0 评论 -
Hadoop集群搭建1Master、3Slaves
master.hadoop 10.9.148.193slave1.hadoop 10.9.148.190slave2.hadoop 10.9.148.191slave3.hadoop 10.9.148.192root 123456 hadoop 1234561. 重装系统Centos62. 设置固定IPIPv4:手动地址 子网原创 2017-08-29 13:14:56 · 4977 阅读 · 0 评论 -
Hadoop集群环境下HBase集群slave节点总是掉问题
Hadoop集群环境下HBase集群总是掉的问题。因为本人集群是1台Master、3台Slaves,而且硬件很差。所以HBase总是掉线,一直困扰,今天由于业务需求需要启动HBase,故沉下心,仔细的过了一遍,其中参考了很多的前辈的建议,在这里很是感谢。希望对各位有用。原创 2017-09-14 16:29:56 · 4234 阅读 · 1 评论