程序员江湖

微信公众号【程序员江湖】 作者黄小斜,985 软件硕士,阿里 Java 研发工程师,在技术校园招聘、自学编程、计算机考研等方面有丰富经验和独到见解,目前致力于分享程序员干货和学习经验,同时热衷于分享作...

Hadoop生态基础学习总结

Hadoop生态 hdfs 架构 hdfs是一个分布式文件系统。底层的存储采用廉价的磁盘阵列RAID,由于可以并发读写所以效率很高。 基本架构是一个namenode和多个dataNode。node的意思是节点,一般指主机,也可以是虚拟机。 每个文件都会有两个副本存放在datano...

2018-07-08 09:50:20

阅读数 1860

评论数 0

搞懂分布式技术24:基于Flume+Kafka+ Elasticsearch+Storm的海量日志实时分析平台:

0背景介绍随着机器个数的增加、各种服务、各种组件的扩容、开发人员的递增,日志的运维问题是日渐尖锐。通常,日志都是存储在服务运行的本地机器上,使用脚本来管理,一般非压缩日志保留最近三天,压缩保留最近1个月,其它直接删除或迁移到日志服务器上。运维会将这些日志mount到远程的日志服务器上,然后开发人员...

2018-07-05 22:06:21

阅读数 1304

评论数 1

探秘Hadoop生态13:初探Storm和入门实例

这位大侠,这是我的公众号:程序员江湖。 分享程序员面试与技术的那些事。 干货满满,关注就送。  Storm:最火的流式处理框架 伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布...

2017-03-08 20:43:26

阅读数 1290

评论数 0

探秘Hadoop生态12:分布式日志收集系统Flume

这位大侠,这是我的公众号:程序员江湖。 分享程序员面试与技术的那些事。 干货满满,关注就送。  在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程:  从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引...

2017-03-08 09:46:57

阅读数 2660

评论数 0

探秘Hadoop生态10:Spark架构解析以及流式计算原理

导语spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。本文依次从spark生态,原理,基本...

2017-03-08 09:46:54

阅读数 1263

评论数 0

探秘Hadoop生态9:Spark入门与分布式计算实践

Spark 介绍由 yiyohunter 创建,小路依依 最后一次修改 2016-12-12行业广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持可扩展,灵活,容错和成本有效的计算解决方案。这里,主要关注的是在处理大型数据集时在查询之...

2017-03-08 09:46:06

阅读数 809

评论数 0

探秘Hadoop生态11:使用Sqoop导出Mysql数据至Hive中,反之亦然

sqoop一些语法的使用 参数详细资料 观看这个博客http://shiyanjun.cn/archives/624.htmlSqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数...

2017-03-08 09:45:24

阅读数 849

评论数 0

探秘Hadoop生态8:Yarn命令介绍与实践

2017-03-08 09:45:10

阅读数 734

评论数 0

探秘Hadoop生态7:Hadoop YARN 介绍

一、Yarn简介 Yarn是Hadoop集群的资源管理系统。Hadoop 2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop 2.0中的MapReduce为MRv2后者Yarn。在介绍Yarn之前,我们先回头看一下Hadoop 1.x对MapReduce job的调度管理方式,...

2017-03-08 09:41:13

阅读数 3215

评论数 0

探秘Hadoop生态6:Hive技术初探与实践入门

HIVE技术初探1 概述1.1 基本详情1.1 Hive概述之基本详情.png1.2 技术比较Hive与传统数据库比较Hive与传统数据库比较Hive与Hbase比较Hive 是个SQL引擎,HBase是个存储引擎,相似MySql, 有个SQL引擎解析解决SQL语句,另外使用Innodb,Myis...

2017-03-08 09:41:08

阅读数 1104

评论数 0

探秘Hadoop生态5:Hbase读写流程详解

一条数据的HBase之旅,简明HBase入门教程-Write全流程 如果将上篇内容理解为一个冗长的"铺垫",那么,从本文开始,剧情才开始正式展开。本文基于提供的样例数据,介绍了写数据的接口,RowKey定义,数据在客户端的组装,数据路由,打包分发,以及RegionServer...

2017-03-08 09:41:03

阅读数 3086

评论数 0

探秘Hadoop生态4:HBase无伤入门

本文由毕杰山同学贡献 ,原文首发于公众号:NoSQL漫谈  链接:https://mp.weixin.qq.com/s/CXsGcbbsKTMXotlwRFQ5xw一些常见的HBase新手问题什么样的数据适合用HBase来存储?既然HBase也是一个数据库,能否用它将现有系统中昂贵的Oracle替...

2017-03-08 09:40:58

阅读数 772

评论数 0

探秘Hadoop生态3:MapReduce简介与WordCount

No.10 MapReduce 编程模型极简篇 dantezhao木东居士2017-09-23 0x00 前言 回想自己最初学 Hadoop 的时候,初衷是写MapReduce程序,但是搭建单机环境折腾一周,搭建分布式环境折腾一周,跑个Demo解决一下Bug又一周过去了。最后都忘了自己是想学...

2017-03-08 09:40:49

阅读数 2407

评论数 0

探秘Hadoop生态2:HDFS常用命令与高可用方案

HDFS常用命令: 注:以下执行命令均在spark安装目录的bin目录下。 path 为路径 src为文件路径 dist 为文件夹 1、-help[cmd] 显示命令的帮助信息./hdfs dfs -help ls12、-ls(r) 显示当前目录下的所有文件 -R层层循出文件夹./hdfs dfs...

2017-03-08 09:40:46

阅读数 384

评论数 0

探秘Hadoop生态1:HDFS的存储原理

根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互...

2017-03-08 09:40:41

阅读数 1016

评论数 2

提示
确定要删除当前文章?