自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 关于搭建CDH中遇到的问题

本人搭建的cdh版本是5.10.1,服务器的版本是redhat 7.4,在搭建cdh的过程中遇见了下列问题,分享出来给大家参考参考一、CDH搭建成功以后,安装服务的过程中突然崩溃的步骤:     解决:     1> 删除Agent节点的UUID       # rm -rf /opt/cm-5.4.7/lib/cloudera-scm-agent/*     2>...

2018-12-29 09:59:31 805 2

原创 关于java连接kudu或者flume的kudusink的异常汇总

1、Caused by: org.apache.kudu.client.NonRecoverableException: Could not connect to a leader master. Client configured with 1 master(s) (xxxx:7051) but cluster indicates it expects 3 master(s) (xxx,xxx,...

2020-01-16 11:54:45 1557

原创 spark2.2 批量往es7.1.1中插入数据的时候问题

报的错为:Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, org.elasticsearch.spark.deploy.yarn.security.EsServiceCredentialProvider.credentialsRequir...

2019-09-05 18:22:02 1351

原创 HashMap、HashTable、ConcurrentHashMap、TreeMap的区别

1、HashMap: 实现了Map接口,允许一个NULL键和多个NULL值,是非线程安全的,当出现多线程操作时就涉及到了数据的同步问题,可以通过使用Collections.synchronizedMap(Map<K,V> m)方法来从HashMap中获取线程安全的Map,但是这个synchronized会锁住整个HashMap,意味着会效率低,2、HashTable:...

2019-07-03 14:19:30 830

原创 关于java和scala当中HashMap的原理总结

HashMap是基于数据结构哈希表的原理,在jdk1.8之前底层的存储结构是数组加链表,在jdk1.8包括1.8之后存储结构是数组加链表或者红黑树。1、put():当调用put方法往hashmap里存放对象的时候,首先会将这个key-value键值对实例化成一个Entry对象,然后会调用key的hashCode()方法,取得hash值之后,会根据hash值与数组的长度取模的结果找到其应该存放的...

2019-06-13 15:19:12 1459

原创 flink的检查点(checkpoint)和保存点(savepoint)的区别

一、检查点:检查点屏障跟普通记录一样。它们由算子处理,但并不参与计算,而是会触发与检查点相关的行为。会在算子之间流动。当读取输入流的数据源遇到检查点屏障时,它将其在输入流中的位置保存到稳定存储中。如果输入流来自消息传输系统(Kafka 或 MapR Streams),这个位置就是偏移量。Flink 的存储机制是插件化的,稳定存储可以是分布式文件系统,如HDFS、S3 或 MapR-FS如图...

2019-03-12 19:30:02 9500 1

原创 关于es的缓存

本人在使用es查询的时候第一次用时46ms,连续第二次仅用了4ms,不由得想起了缓存,经查询资料得知:es有三种缓存:分别是query,fielddata和request 1、query cache 也称filter cache,作用是对一个查询中包含的过滤器执行结果进行缓存,满足了term, range过滤器的clause会被缓存(5.1.1版本term被...

2019-02-28 18:13:25 5509

原创 关于hive和sparksql中的转义符如何处理

问题:在做hive拼接json串的时候遇到了字符串中含有双引号,比如"key1":"我是"中国"人",解决:如果这样拼接的话会直接报错,这个时候需要转义符进行转义,而hive是对转义符转义三次,所以在hive里正确的写法是regexp_replace(字段名,'"','\\\\"') 在sparksql整合hive的时候,要用regexp_replace(字段名,'"...

2019-02-27 18:11:22 5070

原创 kafka0.10版本consumer的精确一次消费topic问题(sparkstreaming等程序重启后如何从原位置继续消费)

首先先给大家看一下kafka的三个重要的属性下面是这三个属性的组合以及分别表示的意义一、(enable.auto.commit:false) + (auto.offset.reset:latest):在Broker到Consumer之间实现了至多一次语义,因为不使用Kafka提供的自动保存offset功能,每次应用程序启动时,都是从Topic的末尾位置来获取消息。也就是说,应用...

2019-01-29 12:33:57 1509 2

原创 关于hive与es整合遇到的问题

1、Error while compiling statement: FAILED: SemanticException Generate Map Join Task Error: Unable to find class: org.elasticsearch.hadoop.hive.EsHiveInputFormat Serialization trace: inputFileFormatC...

2019-01-26 17:41:55 2125

转载 kafka0.9之前和之后管理偏移量的变化

在Kafka0.9版本之前消费者保存的偏移量默认是在zookeeper中/consumers/GROUP.ID/offsets/TOPIC.NAME/PARTITION.ID。也可以保存到mysql等其他工具中。0.9之后消费者不在保存偏移量到zookeeper中,而是kafka本身管理消费者的偏移量,kafka将偏移量保存在一个内部主题中“__consumer_offsets”,该主题默认有50...

2019-01-25 15:34:17 803

原创 关于structured streaming和flink中的watermark理解

structured streaming和flink中的watermark指的是一个意思,顾名思义,就是提高数据的水位线,下面以structured streaming为例,说说小编对watermark的理解1、如图所示,代表着每隔五分钟处理过去十分钟的数据,即窗口长度是十分钟,滑动间隔是五分钟,watermark的值是十分钟2、如图中,12:15~12:20这个batch获取的数据共...

2019-01-16 11:49:21 837

原创 关于 structuredstreaming消费kafka中的异常汇总

本人的spark是2.2.4的,kafka是0.10的,遇到了以下问题,后续会持续更新1、Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, Failed to find data source: kafka. Please find pac...

2019-01-11 18:18:12 1656 6

原创 关于spark跟es的版本兼容问题

刚开始用spark1.6跟es6.5.4结合,发现版本不兼容,经本人测试以及查询资料,es5之前支持spark1.x,es5之后支持spark2.x

2019-01-10 18:23:46 1768

原创 cdh5.x版本将spark1.6升级为spark2之后,hue执行spark2报错问题

Failing Oozie Launcher, Main class [org.apache.oozie.action.hadoop.SparkMain], main() threw exception, Library directory '/*/hue/appcache/application_1547098367136_0236/container_e32_1547098367136_02...

2019-01-10 16:36:57 683

原创 es的相关知识三(检查文档是否存在以及更新整个文档以及局部更新)

一、检索文档是否存在如果你想做的只是检查文档是否存在——你对内容完全不感兴趣——使用 HEAD  方法来代替 GET  。 HEAD  请求不会返回响应体,只有HTTP头:curl -i -XHEAD http://localhost:9200/{index}/{type}/{id}Elasticsearch将会返回 200 OK  状态如果你的文档存在:HTTP/1.1 2...

2019-01-07 16:42:52 1865

原创 es的相关知识二(检索文档)

一、es的使用1、检索文档:想要从Elasticsearch中获取文档,我们使用同样的 _index  、 _type  、 _id  ,但是HTTP方法改为 GET  :GET /{index}/{type}/{id}?pretty这里pretty的作用:在任意的查询字符串中增加 pretty  参数,类似于上面的例子。会让Elasticsearch美化输出(pretty-pr...

2019-01-07 16:28:13 533

原创 es中的相关知识一(基本知识和id的定义)

一、es中文档的元数据包括:1、_index:     索引(index)类似于关系型数据库里的数据库(database),事实上,我们的数据被存储和索引在分片(shards)中,索引知识把一个或多个分片分组在一起的逻辑空间,索引名字必须全部小写,不能以下划线开头,不能包含逗号。2、_type:    类型(type)类似于关系型数据库中的table,在es中我们用type表示...

2019-01-07 16:08:54 8241 1

原创 关于flink的重启策略学习

一、Flink支持不同的重启策略,这些重启策略控制着job失败后如何重启。集群可以通过默认的重启策略来重启,这个默认的重启策略通常在未指定重启策略的情况下使用,而如果Job提交的时候指定了重启策略,这个重启策略就会覆盖掉集群的默认重启策略。二、常用的重启策略      固定间隔 (Fixed delay) 对应的值:fixed-delay      失败率 (Failure rate)...

2019-01-03 15:57:43 415

原创 关于Spark的问题

后续会持续补充1、spark2.0以后,spark的yarn-cluster的提交方式被遗弃

2018-12-29 10:00:36 114

原创 hadoop中执行关于hbase的mapreduce程序的问题

当把关于hbase的mapreduce程序写好上传到linux系统以后,执行hadoop jar XXX.jar会报java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/Filter的异常,此时有两种解决方案:1、在hadoop的hadoop-env.sh中配置 export HADOOP_CLASSPATH=$HBASE_H...

2018-06-04 21:15:52 437

alibaba的fastjson依赖的jar包

阿 里 ali 的 fastjson jar包, 快 速 解 析 json

2018-07-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除