![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 80
Perkinl
但行好事,莫问前程
展开
-
Spark中任务报错java.io.IOException: Filesystem closed
问题来源Spark程序操作HDFS的工具类中,手动获取了FileSystem,执行完HDFS相关操作后对FileSystem进行close,在后续的代码中报Filesystem closed错误。ERROR LiveListenerBus: Listener EventLoggingListener threw an exceptionjava.io.IOException: Filesystem closed at org.apache.hadoop.hdfs.DFSClient.checkOpe原创 2021-02-03 19:27:56 · 3087 阅读 · 0 评论 -
MapReduce处理原理
分析上图:输入分片(input split):在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组,输入分片(input split)往往和hdfs的block(块)关系很密切,假如我们设定hdfs的块的大小是64mb(现在是128M),如果我们输入有三个文件,大小分别是3mb、127mb和129mb,那么.原创 2021-01-26 12:30:56 · 1554 阅读 · 0 评论 -
大数据学习视频
课程链接地址【极限班培训】大数据hadoop+strom+spark+openstack等链接:https://pan.baidu.com/s/1fUjzNZnGbYWuOPWibB0bwA大数据实时计算系统实践Flink链接:https://pan.baidu.com/s/1I8Eaih_zH0In6MiCIV7_Vg10小时入门大数据链接:https://...原创 2020-04-02 10:08:10 · 4772 阅读 · 4 评论 -
Hbase常见面试题
hbase 的特点是什么 (1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。(2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。(3) Hbase为null的记录不会被存储.(4)基于的表包含rowkey,时间戳,和列族。新写入数据时,时间戳更新,同时可以查询到以前的版本.(...原创 2018-05-22 15:51:04 · 5914 阅读 · 1 评论 -
Spark中reduce和reducebykey
首先我们先讲讲两个函数在功能上的作用与区别是什么,然后我们再深入讨论两个函数在内部机理有什么不同。reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。具体过程,RDD有1 2 3 4 5 6 7 8 9 10个元素, ...原创 2018-05-22 19:51:39 · 9675 阅读 · 0 评论 -
Kylin介绍
由eBay开源的一个大数据OLAP框架,2014年11月加入了Apache,项目名字也改成了“Apache Kylin”,Apache Kylin是唯一来自中国的Apache顶级开源项目,定位于在Hadoop平台之上实现传统数据仓库,商业智能的能力,提供交互式的,多维分析能力,并提供在传统数据仓库技术所不能做到的超大规模数据集的快速查询,并使用普通的PC硬件,而无需采购专用的,私有的一体机或者高端...原创 2018-06-11 22:13:00 · 4819 阅读 · 0 评论 -
hbase二级索引解决方案
HBase建立二级索引的一些解决方式HBase的一级索引就是rowkey,我们仅仅能通过rowkey进行检索。假设我们相对hbase里面列族的列列进行一些组合查询。就须要采用HBase的二级索引方案来进行多条件的查询。 常见的二级索引方案有下面几种: 1.MapReduce方案 2.ITHBASE方案 3.IHBASE方案 4.Coprocessor方案 5.Solr+hbase方案MapRedu...原创 2018-06-13 10:39:31 · 5576 阅读 · 0 评论 -
360Hbase二级索引
1、设计思想索引的思想依然是倒排索引的思想,即将需要查询的列作为索引数据的Rokwey,查询列所在记录的Rowkey作为索引数据的value。2、索引设计该方案是将索引与数据放在了同一个Region的不同family里。索引的Rowkey首字段是Region的startKey,它保证了索引和数据在同一个Region里,接下来是索引的类型INDEX,然后是建索引的列,最后是该列所在的记录的Row...转载 2018-06-13 11:13:43 · 3639 阅读 · 0 评论 -
Storm介绍和发展
1. 什么是storm?Apache Storm是一个免费的、开源的分布式实时计算系统。Storm使得可靠地处理无界数据流变得很容易,可以实时处理Hadoop对批处理的处理。Storm是简单的,可以与任何编程语言一起使用,并且使用起来非常有趣!Storm有很多用例:实时分析、在线机器学习、持续计算、分布式RPC、ETL等等。Storm是非常快的:一个基准在每一个节点每秒处理超过100万个元组。它是...原创 2018-06-23 22:37:33 · 5246 阅读 · 0 评论 -
Es背景和入门
一、关于搜索引擎 各位知道,搜索程序一般由索引链及搜索组件组成。 索引链功能的实现需要按照几个独立的步骤依次完成:检索原始内容、根据原始内容来创建对应的文档、对创建的文档进行索引。 搜索组件用于接收用户的查询请求并返回相应结果,一般由用户接口、构建可编程查询语句的方法、查询语句执行引擎及结果展示组件组成。 如图所示。 著名的开源程序Lucene是为索引组件,它提供了搜索程序的核...原创 2018-06-09 12:09:08 · 4648 阅读 · 0 评论 -
broadcast hash join和sort merge join
SparkSQL大数据实战:揭开Join的神秘面纱 Join操作是数据库和大数据计算中的高级特性,大多数场景都需要进行复杂的Join操作,本文从原理层面介绍了SparkSQL支持的常见Join算法及其适用场景。Join背景介绍Join是数据库查询永远绕不开的话题,传统查询SQL技术总体可以分为简单操作(过滤操作-where、排序操作-limit等),聚合操作-groupby以及Join操作等。其中...转载 2018-06-17 10:53:01 · 15216 阅读 · 4 评论 -
Kafka消费者读取数据
转载于:https://www.cnblogs.com/sodawoods-blogs/p/8969774.html(1)Customer和Customer Group(1)两种常用的消息模型队列模型(queuing)和发布-订阅模型(publish-subscribe)。队列的处理方式是一组消费者从服务器读取消息,一条消息只由其中的一个消费者来处理。发布-订阅模型中,消息被广播给所有的消费者,接...转载 2018-07-08 22:50:44 · 5368 阅读 · 0 评论 -
基于CentOS6.4环境编译Spark-2.1.0源码
1 写在前面的话有些小伙伴可能会问:Spark官网不是已经提供了Spark针对不同版本的安装包了吗,我们为什么还需要对Spark源码进行编译呢?针对这个问题我们到Spark官网: spark.apache.org来看下,如下图所示:Spark官网的确是提供了一些Hadoop版本的Spark安装包,但是提供的这些是否能够满足我们的要求呢?答案肯定是否定的,根据本人近几年做Spark的开发经验...转载 2018-08-01 13:08:02 · 3951 阅读 · 0 评论 -
大数据hive面试题
1)Hive数据倾斜问题:倾斜原因: map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。】【等原因造成的reduce上的数据量差异过大。1.1)key分布不均匀1.2)业务数据本身的特性1.3)SQL语句造成数据倾斜解决方案:1>参数调节: hive.map.aggr=true hive.groupby.skewindata=tr...原创 2018-05-15 17:34:36 · 6784 阅读 · 0 评论 -
hive,spark获取TOPN窗口函数
TOPNrow number说明: row_number() over ([partition col1] [order by col2]) rank() over ([partition col1] [order by col2]) dense_rank() over ([partition col1] [order by col2]) 它们都是根据col1字段分组,然后对col2字段进行排序,...原创 2018-05-15 17:21:11 · 4295 阅读 · 0 评论 -
Hbase架构(二)
HBase读的实现通过前文的描述,我们知道在HBase写时,相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起,甚至删除一个Cell也只是写入一个新的Cell,它含有Delete标记,而不一定将一个Cell真正删除了,因而这就引起了一个问题,如何实现读的问题?要解决这个问题,我们先来分析一下相同的Cell可能存在的位置:首先对新写入的Cell,它会存在于MemS...转载 2018-05-20 11:56:11 · 3927 阅读 · 0 评论 -
大数据和云计算的区别
关于大数据和云计算的关系,人们通常会有误解,而且也会把它们混起来说。做一个直白解释就是:云计算是硬件资源的虚拟化;大数据是海量数据的高效处理。 大数据解决了两个问题(处理海量数据): 1.存储 ------分布式存储 2.计算 ------分布式计算 云计算(提供服务): 1.提供服务(把数据整合在一个中心,对外提供一个服务。例如:阿里云) 2.硬件资源的虚拟化 分布式:由分布在不...原创 2018-02-27 18:00:46 · 4049 阅读 · 0 评论 -
Hadoop环境搭建(JDK+hadoop+ssh)
hadoop环境搭建------------------------- 1.安装hadoop a)下载hadoop-2.7.3.tar.gz b)tar开 $>su centos ; cd ~ $>cp /mnt/hdfs/downloads/bigdata/hadoop-2.7.3.tar.gz ~/downloads $>tar -xzvf ha...原创 2018-03-01 16:34:20 · 3502 阅读 · 0 评论 -
大数据概念和Hadoop基本介绍
开始学习大数据,一步一个脚印,好好坚持下去!大数据概述1.大数据特征 第一个,volume(量),大数据第一个基础是它的数据量要大;第二个,velocity(速度),大数据一个很重要的它必须是实时产生的,一个两年以前很大的数据,在今天的时代里面是不能够被称之为大数据的;第三个,variety(多样性),很多企业其实只拥有一类数据,但需要明白大数据的根本是需要多样性;第四个,veracit(不确定性...原创 2018-02-24 21:59:29 · 5969 阅读 · 0 评论 -
kafka的使用场景
关于消息队列的使用一、消息队列概述消息队列中间件是分布式系统中重要的组件,主要解决应用解耦,异步消息,流量削锋等问题,实现高性能,高可用,可伸缩和最终一致性架构。目前使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ二、消息队列应用场景以下介绍消息队列在实际应用中常用的使用场景。异步处理,应用解耦,流量削锋和消息通讯四个场景。2.1异步...转载 2018-05-10 18:28:02 · 42910 阅读 · 2 评论 -
storm实时处理核心类
ISpout 概述 核心接口(interface),负责将数据发送到topology中去处理 Storm会跟踪Spout发出去的tuple的DAG ack/fail tuple: message id ack/fail/nextTuple是在同一个线程中执行的,所以不用考虑线程安全方面 核心方法 open: 初始化操作 close: 资源释放操作 nextTuple: 发送数据 ...原创 2018-05-17 15:44:23 · 3920 阅读 · 0 评论 -
HDFS架构设计之Hadoop核心
概述:HDFS即Hadoop Distributed File System分布式文件系统,它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机上,并且能够提供高可靠性和高吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂,因为它要引入网络编程,分布式文件系统要容忍节点故障也是一个很大的挑战。设计前提和目标专为存储超大文件而设计:hdfs应该能够支持GB级别大小的文件;它应该能够提供...原创 2018-04-27 10:58:39 · 4557 阅读 · 0 评论 -
深入剖析kafka架构内部原理
1 概述Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark等都支持与Kafka集成。Kafka凭借着自身的优势,越来越受到互联网企业的青睐,唯品会也采用Kafka作为其内部核心消息引擎之一。Kafka作...转载 2018-05-13 10:20:38 · 39796 阅读 · 5 评论 -
CDH中flume集成hive常见异常
java.lang.NoClassDefFoundError: org/apache/hive/hcatalog/streaming/RecordWriter1、 没有导入依赖2、 有可能maven没有下载完整3、 包冲突的问题没有依赖包----flume中缺少某个包1、 根据异常信息,确定缺少什么包根据网上的搜索信息,确定缺少某一个包: find / -name 'hive-hcatalog-c...原创 2018-05-13 18:34:22 · 7019 阅读 · 1 评论 -
kafka整合sparkStreaming
(1)、如何实现sparkStreaming读取kafka中的数据在kafka0.10版本之前有二种方式与sparkStreaming整合,一种是基于receiver,一种是direct,然后分别阐述这2种方式分别是什么receiver:是采用了kafka高级api,利用receiver接收器来接受kafka topic中的数据,从kafka接收来的数据会存储在spark的executor中,之后...原创 2018-05-13 21:21:46 · 4181 阅读 · 0 评论 -
flume整合sparkStreaming
(1)、如何实现sparkStreaming读取flume中的数据推模式:Flume将数据Push推给Spark Streaming 拉模式:Spark Streaming从flume 中Poll拉取数据(2)、在实际开发的时候是如何保证数据不丢失的flume那边采用的channel是将数据落地到磁盘中,保证数据源端安全性(可以在补充一下,flume在这里的channel可以设置为memory内存...原创 2018-05-13 21:22:56 · 4389 阅读 · 0 评论 -
Hbase架构(一)
HBase架构组成HBase采用Master/Slave架构搭建集群,它隶属于Hadoop生态系统,由一下类型节点组成:HMaster节点、HRegionServer节点、ZooKeeper集群,而在底层,它将数据存储于HDFS中,因而涉及到HDFS的NameNode、DataNode等,总体结构如下:其中HMaster节点用于:管理HRegionServer,实现其负载均衡。管理和分配HRegi...转载 2018-05-20 11:54:22 · 4079 阅读 · 0 评论 -
分布式和集群的概念
1.什么是分布式: 分布式是指将不同的业务分布在不同的地方。 分布式的中的每一个节点,都可以做集群。 分布式的每一个节点,都完成不同的业务,一个节点down了, 这个业务就不可以访问了。2.什么是集群: 集群是指将几台服务器集中在一起,处理同一个业务。(处理同一任务的机器集合) 例如:登入一个网站,登入量多了,可以做一个集群,前面一个响应服务器,后面几台处理登入业务服务器集群。简单说,分布式是以缩...原创 2018-02-27 17:28:14 · 5451 阅读 · 0 评论