![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BigData
123.56.119.133:8090
http://123.56.119.133:8090/
展开
-
Hadoop NameNode和DataNode只能启动一个问题
DataNode和NameNode进程不能共存启动NameNode可以正常启动,但是启动DataNode时发现,NameNode进程不存在了,导致两个无法共存,问题原因NameNode在format初始化后会生成claserId(集群id),在没有关闭进程或删除原有DataNode信息的情况下, 再次格式化NameNode,生成的clusterId不同,所以导致两个不能对应上。解决办法...原创 2018-12-01 07:22:50 · 2038 阅读 · 2 评论 -
Hive严格模式
严格模式是什么:防止可能出现不好的结果防止出现三种场景:分区表查询中没有写where分区过滤条件orderby 中没有写limit不允许出现笛卡尔积hive.mapred.mode值为默认是非严格模式nonstrict 。怎么用:修改hive.mapred.mode值为strict,<property> <name>hive.mapre...原创 2019-02-23 14:01:45 · 149 阅读 · 0 评论 -
spark streaming 的textFileStream读取不了数据原因分析
使用textFileStream监测 某个文件夹的变化时,出现错误val fileDStream: DStream[String] = ssc.textFileStream(“in”)原因: 这路径如果hdfs的路径 你直接hadoop fs -put到你的监测路径就可以,如果是本地目录用file:///home/data你不能移动文件到这个目录,必须用流的形式写入到这个目录形成文...原创 2019-02-25 10:14:52 · 2892 阅读 · 0 评论 -
kafka节点启动后无故挂掉
背景:kafka节点启动后,突然挂掉,重试几次后,也是如此查看日志信息如下Configured broker.id 0 doesn’t match stored broker.id 3 in meta.properties. If you moved your data, make sure your configured broker.id matches. If you intend ...原创 2019-03-08 19:21:43 · 5585 阅读 · 0 评论 -
Java 实现文件随机读写-RandomAccessFile
使用JAVA IO体系中的RandomAccessFile类来完成的话,可以实现零内存追加。其实这就是支持任意位置读写类的强大之处。在这之前,还是先啰嗦的介绍下RandomAccessFile这个类,RandomAccessFile是Java中输入,输出流体系中功能最丰富的文件内容访问类,它提供很多方法来操作文件,包括读写支持,与普通的IO流相比,它最大的特别之处就是支持任意访问的方式,程序可以...转载 2019-03-09 13:24:04 · 387 阅读 · 0 评论 -
Kafka分区分配策略
kafka分区分配策略, 分为三种RoundRobin, Range , Sticky 策略Range 分配策略:按照消费者总数和分区总数整除获取一个数值,将分区按照数值进行平均分配的策略,如果存在没有整除的情况,字典顺序靠前的消费者会被多分配一个分区RoundRobin:原理是将消费者组内所有消费者以及所有的topic按照字典顺序进行排序,然后通过轮询方式逐个将分区分配各每个...原创 2019-03-14 11:13:51 · 703 阅读 · 0 评论 -
Flume的序列化器、通道选择器、sink处理器以及拦截器
https://blog.csdn.net/ancony_/article/details/79823599转载 2019-03-08 08:53:59 · 560 阅读 · 0 评论 -
Flume 报出异常org/apache/hadoop/io/SequenceFile$CompressionType
异常 Failed to start agent because dependencies were not found inclasspath. Error follows. java.lang.NoClassDefFoundErrororg/apache/hadoop/io/SequenceFile$CompressionType问题原因:缺少依赖包,这个依赖包是以下jar文件:$...原创 2019-03-12 18:43:44 · 2726 阅读 · 2 评论 -
dependencies与dependencyManagement 区别
dependencies与dependencyManagement 区别总结1、dependencies即使在子项目中不写该依赖项,那么子项目仍然会从父项目中继承该依赖项(全部继承)2、 dependencyManagement里只是声明依赖,并不实现引入,因此子项目需要显示的声明需要用的依赖。如果不在子项目中声明依赖,是不会从父项目中继承下来的;只有在子项目中写了该依赖项,并且没有指定具...原创 2019-03-13 08:43:57 · 606 阅读 · 0 评论 -
Flume -Taildir Source
Taildir Source可实时监控一批文件,并记录每个文件最新消费位置,agent进程重启后不会重复消费的问题 , 使用时建议1.8版本flume(1.8b版本解决了Taildir source的bug)功能:支持目录变化的文件,如果遇到中断,并以json数据记录目录下的每个文件的收集状态重点:a1.sources.r1.type = TAILDIRa1.sources.r1.c...原创 2019-03-13 12:43:59 · 417 阅读 · 0 评论 -
flume backoff 退避算法
原文链接: https://qiuqiang1985.iteye.com/blog/1513049发生冲突时,每个节点等待一定的时间后重新发送,二进制退避算法中,等待时间以以2位底的指数级增长,失败后,下次等待时间是上次的二倍,若重试次数大于最大重试次数,将从等待队列中去除...原创 2019-03-13 12:59:15 · 477 阅读 · 0 评论 -
hive 支持json解析
hive spark 支持json解析jar包 下载路径 可根据自己需要下载相应版本http://www.congiu.net/hive-json-serde/原创 2019-03-13 16:27:48 · 297 阅读 · 0 评论 -
Scala 中apply() unapply() unapplySeq()方法
apply通常被称作注入方法unapply通常被称为提取方法,使用unapply来提取固定数量的对象使用unapplySeq来提取一个序列原创 2019-03-31 19:15:55 · 327 阅读 · 0 评论 -
log4j之间的关系
slf4j-api、slf4j-log4j12、log4j之间的关系,例子为当系统采用log4j作为日志框架实现的调用关系:原创 2019-04-03 20:10:42 · 181 阅读 · 0 评论 -
Flink WordCount
程序结构整个flink程序一共分为5步设定Flink执行环境 创建和加载数据集 对数据集指定转换操作逻辑 指定计算结果输出位置 调用execute方法触发程序执行WordCount案例import org.apache.flink.api.scala.ExecutionEnvironmentobject WordCount { def main(args: Ar...原创 2019-08-04 21:24:26 · 285 阅读 · 0 评论 -
Flink时间概念
时间概念类型Flink根据时间产生的位置不同:将时间区分为三种时间概念事件生成时间 事件接入时间 事件处理时间Flink流式处理中,绝大部分的业务都会使用eventTime,一般只在eventTime无法使用时,考虑其他时间属性Flink中默认使用Process Time的时间概念,如果需要使用EventTime的时间属性,需要进行设置val env = StreamE...原创 2019-08-07 21:51:42 · 1032 阅读 · 0 评论 -
Flink 流处理API之 Source TransForm
DataStream编程模型DataStream API 主要分为三个模块DataSource模块 Transformation模块 DataSink模块DataSources数据输入内置数据源文件val textStream = env.readTextFile("data_example.log")socketval socketDataStream...原创 2019-08-05 22:40:12 · 289 阅读 · 0 评论 -
使用Spark通过Bulkload的方式导数据到Hbase
文章目录Spark通过Bulk Load 写入Hbase 背景 BulkLoad Bulk Load的实现原理 使用Put普通的方式 java put方式 使用 Bulk Load方式导入数据 数据准备 maven依赖 完整代码 Hbase中结果 总结 其他 Spark通过Bul...原创 2019-08-10 16:14:17 · 1097 阅读 · 1 评论 -
Hadoop优化之mapreduce.job.reduce.slowstart.completedmaps介绍
调优参数:mapreduce.job.reduce.slowstart.completedmaps背景hadoop中优化其中一项是在Reduce阶段,设置Map和Reduce共享,锁使用的参数就是调整slowstart.completedmaps,官方文档中显示默认值为0.05官方文档截图:2.7.2版本此参数的意义是当MapTask完成的比例达到该值后才会为Reduce Task申请资...转载 2019-02-21 17:11:18 · 2803 阅读 · 0 评论 -
HBase写流程部分源码学习
put操作:写流程主函数 public void put(Put put) throws IOException { checkReadOnly(); //判断当前是否为read-only--只读状态 // Do a rough check that we have resources to accept a write. The check is // 'rou...原创 2019-01-09 21:17:47 · 443 阅读 · 2 评论 -
hdfs shell API-count
hadoop fs -help count-count [-q] [-h] <path> ... : Count the number of directories, files and bytes under the paths that match the specified file pattern. The output columns are: DIR_COU...原创 2018-12-09 22:46:11 · 272 阅读 · 0 评论 -
Impala 简单使用指南
Impala优点 1. 基于内存运算,不需要讲中间结果写入磁盘,省去IO 2. 无序转换成MapReduce程序,直接访问HDFS,Hbase中的数据进行作业调度,速度快 3. 使用了支持data locality的IO调度机制:尽可能将数据和计算分配在同一台机器上,减少网络开销 4. 支持各种文件格式,如TEXTFILE 、SEQUENCEFILE 、RCFile、Parquet。//...原创 2018-12-26 19:45:33 · 2203 阅读 · 0 评论 -
Hive谓词解析过程分析
where col1 = 100 and abs(col2) > 0在Hive中的处理过程where过滤条件称为谓词predicate。以上where过滤条件在经过Hive的语法解析后,生成如下的语法树:TOK_WHEREAND=TOK_TABLE_OR_COLc1100>TOK_FUNCTIONABSTOK_TABLE_OR_COLc20有了语法树之后,...转载 2018-12-24 09:56:36 · 1260 阅读 · 0 评论 -
kafka与flume集成小案例
Flume定位Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集,聚合和传输的流式架构适合多个生产者适合下游消费者不多的情况(如果存在多个sink,就需要多个channel,多个memchannel会占用大量的内存)适合数据安全性不高的操作(flume没有备份机制,数据安全性较低)flume可以简单的和hadoop生态圈进行对接(可以和HDFS进行对接,...原创 2019-01-04 21:31:55 · 388 阅读 · 0 评论 -
Kafka producer拦截器--拦截器链
背景producer 拦截器(interceptor)实在kafka0.10版本被引入的,主要实现客户端的定制化需求逻辑控制producer允许多个用户指定多个interceptor按照顺序作用于同一条信息,从而形成一个拦截器链条件必须实现ProducerInterceptor 接口public interface ProducerInterceptor<K, V> ...原创 2019-01-04 23:10:03 · 612 阅读 · 0 评论 -
通过零拷贝实现有效数据传输
原链接kafka高吞吐性能揭秘中提到使用零拷贝进行快速提高底层效率,上面链接是IBM的一篇关于零拷贝文章原创 2019-01-06 09:54:58 · 157 阅读 · 0 评论 -
Hbase shell查询错误
使用Hbase shell进行查询时,发现出现ERROR: Can’t get master address from ZooKeeper; znode data == null 错误,所有命令都不能使用解决办法1. jps查看Hbase进程状况 //Hbase依赖于hdfs 和zookeeper,需要保证相关进程存在2. 如果HBase相关进程存在,bin/stop-hbase.s...原创 2019-01-06 11:22:07 · 496 阅读 · 0 评论 -
org.apache.hadoop.hbase.client.RetriesExhaustedException: Can't get the locations
Hbase API操作表时报出异常Exception in thread “main” org.apache.hadoop.hbase.client.RetriesExhaustedException: Can’t get the locations问题解决:其他博客中所说的要在/etc/hosts中添加的映射关系已经添加,所以不是这里的问题使用ping 命令在cmd中尝试网...原创 2019-01-06 13:53:12 · 15377 阅读 · 0 评论 -
Hbase API 基本操作
idea中maven工程依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</version></dependency原创 2019-01-06 14:17:11 · 167 阅读 · 0 评论 -
Azkban使用简要说明
Azkaban简介Azkaban调用mapreduce程序1. vim mapreduce.job 写入以下内容:#执行mapreduce程序在azkaban上type=commandcommand=hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.ja...原创 2019-01-02 13:24:10 · 895 阅读 · 0 评论 -
zookeeper入门简介
zookeeper产生的背景#####zookeeper定位Zookeeper是一个开源的,分布式的,为分布式应用提供协调服务的apache项目zookeeper的特点zookeeper的工作机制原创 2019-01-08 15:14:27 · 116 阅读 · 0 评论 -
Hive基本语法--DDL相关
DDL数据定义创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment] //创建描述信息[LOCATION hdfs_path]//指定存储位置[WITH DBPROPERTIES (property_name=property_value, ...)]; //数据库属性说明:1. 创建...原创 2019-01-03 06:22:37 · 128 阅读 · 0 评论 -
平日中遇到的异常
Hbase名字空间格式异常创建名称空间时,使用自己的工作中常用的名字缩写实验了下,发现爆出异常,只能使用[0-9 大小写a-z]持续更新…原创 2019-01-07 23:22:11 · 113 阅读 · 0 评论 -
sqoop 简要使用说明
sqoop简介Sqoop是一款开源的工具,主要用于在大数据集群hadoop 和RDMBS传统数据库之间进行数据的导入与导出官网中介绍到,sqoop2从1.99.7版本开始,貌似与sqoop1不兼容,不打算用于生产部署,具体可见下面官网链接官网: http://sqoop.apache.org/Sqoop原理将导入或导出命令翻译成mapreduce程序进行执行翻译的MapRe...原创 2019-01-08 18:16:49 · 179 阅读 · 0 评论 -
zookeeper 监听器原理源码分析学习
zookeeper cli类型构造器创建两个线程sendThread和eventThreadsentThread 发送信息的线程(负责网络连接通信)eventThread发生改变进行通知的线程(负责监听)启动两个线程EventThread线程run()方法 @Override public void run() { try { ...原创 2019-01-08 20:14:32 · 763 阅读 · 0 评论 -
ELK
ELK简介1. ElasticSearch: 分布式数据搜索引擎,用于全文搜索 //存储+搜索2. Logstach : 数据收集引擎 3. Kibana: 提供分析平台和可视化的web平台,帮助汇总,分析和搜索数据日志 // 数据展现工具ElasticSearch结构ES6.0之后,一个索引只有一个type(一个数据库中只有一个表)关系型数据库(mysql)非关系型数...原创 2019-01-14 21:25:29 · 177 阅读 · 0 评论 -
kafka重新消费
kafka重新消费的两种方式低级APIAUTO_OFFSET_RESET_CONFIG方式一:低级APIpublic class MylowerConsumer { public static void main(String[] args) { //1.brokers节点 ArrayList<String> list = new A...原创 2019-01-09 15:46:33 · 1488 阅读 · 0 评论 -
Hbase-Trying to load more than 32 hfiles to one family of one region
BulkLoad方式优化 背景 问题分析 解决方案 方式一:spark DataFrame写入Hive临时表前进行coalesce(30) 方式二: 参考链接 BulkLoad方式优化背景项目中使用到Hbase BulkLoad方式插入数据,当数据量较大时或小文件过多时,任务失败: 报错:Exception in thread "main" jav...原创 2019-08-24 10:06:46 · 1142 阅读 · 0 评论