大数据
文章平均质量分 87
张林强超级ok
现从事java,对大数据非常感兴趣,希望以后和大家共同进步
展开
-
HADOOP之HDFS学习
HDFS原理以及读写流程最近从零开始学习大数据,所以也开始学习他的一些框架,这是我所理解的hdfs[ ] 1.HDFS系统架构 2.三个角色 Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写 Namenode存储:文件系统的命名空间,文件名称,文件目录结构,文件的属性[权限,创建时间,副本数];文件对应哪些数据...原创 2018-10-09 14:35:00 · 264 阅读 · 0 评论 -
HIVE MR知识巩固
概念Hive 将 HQL 转换成MapReduce 执行 ,可以说Hive 是基于 hadoop的一个数据仓库工具,实质就是一款基于 HDFS的 MapReduce 计算框架我的大白话解释其实Hive就是基于hdfs以及mr的数据仓库,通过hql进行数据的导入,以及对数据的离线分析。导入数据是将结构化的数据文件映射为一张数据库表,离线分析则是将hql翻译为mr进行执行。相关组件Metas...原创 2019-02-26 18:52:38 · 626 阅读 · 0 评论 -
flume 学习
Flume 监控一共分为两种监控http监控Flume作为一个强大的数据收集工具,虽然功能非常强大实用,但是却无法看到flume收集数据的详细信息,所以我们需要一个能展示flume实时收集数据动态信息的界面,包括flume成功收集的日志数量、成功发送的日志数量、flume启动时间、停止时间、以及flume一些具体的配置信息,像通道容量等,于是顺利成章的监控能帮我们做到这些,有了这些数据,在遇...原创 2019-02-20 14:34:13 · 215 阅读 · 0 评论 -
Spark Streaming运行架构以及代码详解
1. 运行架构spark Streaming相对其他流处理系统最大的优势在于流处理引擎和数据处理在同一软件栈,其中Spark Streaming功能主要包括流处理引擎的流数据接收与存储以及批处理作业的生成与管理,而Spark Core负责处理Spark Streaming发送过来的作业。Spark Streaming分为Driver端和Client端,运行在Driver端为StreamingCo...原创 2018-12-25 10:28:08 · 616 阅读 · 0 评论 -
Spark 性能调优
最近在学习spark,spark相对于mr来说他的dag模型和内存管理确实很大的提高了性能,但是Spark开发出高性能的大数据计算作业,并不是那么简单的。想要spark最大的发挥他的优势,需要在很多方面进行调优。基础篇1. 开发调优开发调优主要就是对于算法的理解以及使用,也是最基础的部分。1.尽可能复用同一个RDD,这样可以尽可能地减少RDD的数量,从而尽可能减少算子执行的次数2.对多次...转载 2018-12-27 16:03:49 · 341 阅读 · 0 评论 -
Spark基础入门
最近在研究spark,spark现在可以算是最流行的大数据计算框架啦,mr只能进行离线计算的批处理,presto,implala进行交互式查询,storm只能进行流计算,而spark恰恰集成了这些。我这篇文章只进行基础入门的介绍(系统架构,运行模式)。- spark和mr的比较spark把计算中间数据放到内存(cache,persist),mr的map阶段和ruduce阶段都需要进行溢写落...原创 2018-11-26 16:13:11 · 177 阅读 · 0 评论 -
HiveSql(未更新完)
create table if not exists brand_dimension(bid STRING,category STRING,brand STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ',‘;创建表 导入数据字段按逗号分隔开。其他分隔符为‘/001’ 。load data local inpath ‘/hivedata/...原创 2018-11-12 15:13:31 · 170 阅读 · 0 评论 -
资源调度框架YARN解析
Yarn作为Hadoop的资源调度框架,承担着扩展Hadoop的重要责任,我们配置Spark时就使用了Spark on Yarn的配置方法,这里简单介绍一些YARN的工作原理,有助于理解整个系统处理作业的过程。在配置好的Hadoop环境中,我们输入jps查看进程,可以看到,master节点上的ResourceManager和slave节点上的NodeManager就是属于Yarn的进程。几个需...原创 2018-11-12 10:46:22 · 305 阅读 · 0 评论 -
Hadoop之MapReduce的原理学习
前言虽然mapreduce几乎已经被淘汰,但是他的原理机制还是需要去了解深挖的,他的分而治之的理念差不多是贯通整个大数据的框架的,spark,flink都借鉴了其分而治之的理念,下面是我总结的mapReduce的模型,结构,以及原理。写的不好,请见谅!!!虽然mapreduce几乎已经被淘汰,但是他的原理机制还是需要去了解深挖的,他的分而治之的理念差不多是贯通整个大数据的框架的,spark,fl...原创 2018-11-11 17:38:48 · 243 阅读 · 0 评论 -
HBASE常见问题
HBase搭建过程中需要注意什么是否使用外部ZooKeeper,这个一般使用Hadoop集群的ZooKeeper集群即可。HBASE_MANAGES_ZK=falsehbase-site.sh的配置hbase.zookeeper.quorum=“host1:2181,host2:2181”HBase优化方法1减少调整减少调整这个如何理解呢?HBase中有几个内容会动态调整,如reg...原创 2018-11-05 13:19:51 · 751 阅读 · 0 评论 -
分布式存储HBASE原理学习
HBase定义HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop HDFS 作为其文件存储系统;Google 运行MapReduce 来处理Bigta...原创 2018-11-05 13:19:34 · 498 阅读 · 0 评论 -
消息中间件kafka学习总结
消息中间件kafka学习总结Kafka简介Kafka是一种分布式的,基于发布/订阅的消息系统。消息中间件优点1.解耦:在开始开发时,可以将产出的不一定明确的数据放入消息系统,这样可以保证最大程度的解耦和性,如果事soa或者微服务架构的话,其他模块想要有交集的时候直接去访问消息系统就可以,两个系统之间会保证独立,不回产生交集。2.缓冲:数据可以不必直接存入数据库,这样减少了数据库的压力,小...原创 2018-10-29 15:07:22 · 550 阅读 · 1 评论