Hadoop
Java技术江湖
在下程序员黄小斜,前阿里Java工程师,4年码龄。 专注分享Java技术干货文,偶尔也吹水吐槽聊人生。
展开
-
Hadoop生态基础学习总结
Hadoop生态hdfs架构hdfs是一个分布式文件系统。底层的存储采用廉价的磁盘阵列RAID,由于可以并发读写所以效率很高。基本架构是一个namenode和多个dataNode。node的意思是节点,一般指主机,也可以是虚拟机。每个文件都会有两个副本存放在datanode中。读写客户端写入文件时,先把请求发送到namenode,namenode会返回dat...原创 2018-07-08 09:50:20 · 2934 阅读 · 0 评论 -
探秘Hadoop生态13:初探Storm和入门实例
Storm:最火的流式处理框架伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝要等到第二天或者更久才可以被搜出来,估计这个大哥就要骂娘了。再举一个推荐的例子,如果用户昨天在淘...转载 2017-03-08 20:43:26 · 2161 阅读 · 0 评论 -
探秘Hadoop生态12:分布式日志收集系统Flume
在具体介绍本文内容之前,先给大家看一下Hadoop业务的整体开发流程:从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角—Flume。本文将围绕Flume的架构、Flume的应用(日志采集)进行详细的介绍。(一)Flume架构介绍1、Flume的概念flume是分布式的日志收集系统,...转载 2017-03-08 09:46:57 · 3127 阅读 · 0 评论 -
探秘Hadoop生态11:使用Sqoop导出Mysql数据至Hive中,反之亦然
sqoop一些语法的使用参数详细资料 观看这个博客http://shiyanjun.cn/archives/624.htmlSqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了import和export这两个工具。这两个工具非常强大,提供了很多选项帮助我们完成数据的迁移和同步。比如,下面两个潜在的需求:业务数据存放在关系数据库...转载 2017-03-08 09:45:24 · 1396 阅读 · 0 评论 -
探秘Hadoop生态10:Spark架构解析以及流式计算原理
导语spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。本文依次从spark生态,原理,基本概念,spark streaming原理及实践,还有spark调优以及环境搭建等方...转载 2017-03-08 09:46:54 · 2418 阅读 · 0 评论 -
探秘Hadoop生态9:Spark入门与分布式计算实践
Spark 介绍由yiyohunter创建,小路依依 最后一次修改2016-12-12行业广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持可扩展,灵活,容错和成本有效的计算解决方案。这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等待时间方面保持速度。Spark由Apache...转载 2017-03-08 09:46:06 · 1285 阅读 · 0 评论 -
探秘Hadoop生态8:Yarn命令介绍与实践
转载 2017-03-08 09:45:10 · 1090 阅读 · 0 评论 -
探秘Hadoop生态7:Hadoop YARN 介绍
一、Yarn简介Yarn是Hadoop集群的资源管理系统。Hadoop 2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop 2.0中的MapReduce为MRv2后者Yarn。在介绍Yarn之前,我们先回头看一下Hadoop 1.x对MapReduce job的调度管理方式,它主要包括两部分功能:1.ResourceManagement 资源管理2.JobSched...转载 2017-03-08 09:41:13 · 3779 阅读 · 0 评论 -
探秘Hadoop生态6:Hive技术初探与实践入门
数据仓库_总结一,数据类型数据储存库将包括关系数据库、数据仓库、事务数据库、高级数据库系统、一般文件、数据流和万维网。高级数据库系统包括对象-关系数据库和面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库。1.1关系数据库关系数据库是表的汇集,每个表都赋予唯一的名字。每个表包含一组属性(列或字段),通常存放大量元组(记录或行)。关系表中的每个元组代表...转载 2017-03-08 09:41:08 · 1531 阅读 · 0 评论 -
年底了,整理了一份程序员面试必看的文章合集
本系列文章整合了本号发表和转载过的,有关技术招聘干货、笔试面试经验和技巧、简历、招聘等方面的精品文章,希望对想要找工作,以及正在找工作的你,能够有所帮助。原创面试干货文章校招季到来,你可能需要这一份求职作战计划!记一次面试腾讯的奇葩经历阿里巴巴实习生招聘 不完全指南如何修改个人简历?一些过来人的经验应聘腾讯,面试官和我聊了一个小时的人生看过太多大厂面试题,其实...转载 2017-03-08 09:41:03 · 3626 阅读 · 0 评论 -
探秘Hadoop生态4:HBase无伤入门
本文由毕杰山同学贡献 ,原文首发于公众号:NoSQL漫谈 链接:https://mp.weixin.qq.com/s/CXsGcbbsKTMXotlwRFQ5xw一些常见的HBase新手问题 什么样的数据适合用HBase来存储? 既然HBase也是一个数据库,能否用它将现有系统中昂贵的Oracle替换掉? 存放于HBase中的数据记录,为何不直接存放于H...转载 2017-03-08 09:40:58 · 1574 阅读 · 0 评论 -
探秘Hadoop生态3:MapReduce简介与WordCount
No.10 MapReduce 编程模型极简篇dantezhao木东居士2017-09-230x00 前言回想自己最初学 Hadoop 的时候,初衷是写MapReduce程序,但是搭建单机环境折腾一周,搭建分布式环境折腾一周,跑个Demo解决一下Bug又一周过去了。最后都忘了自己是想学 MapReduce 的。感觉自己虽然是搞Hadoop的,但是写MR比自己想的要少很多。初期是...转载 2017-03-08 09:40:49 · 3033 阅读 · 0 评论 -
探秘Hadoop生态2:HDFS常用命令与高可用方案
HDFS常用命令:注:以下执行命令均在spark安装目录的bin目录下。path 为路径 src为文件路径 dist 为文件夹1、-help[cmd] 显示命令的帮助信息./hdfs dfs -help ls12、-ls(r) 显示当前目录下的所有文件 -R层层循出文件夹./hdfs dfs -ls /log/map./hdfs dfs -lsr /log/ (递归...转载 2017-03-08 09:40:46 · 763 阅读 · 0 评论 -
搞懂分布式技术24:基于Flume+Kafka+ Elasticsearch+Storm的海量日志实时分析平台:
0背景介绍随着机器个数的增加、各种服务、各种组件的扩容、开发人员的递增,日志的运维问题是日渐尖锐。通常,日志都是存储在服务运行的本地机器上,使用脚本来管理,一般非压缩日志保留最近三天,压缩保留最近1个月,其它直接删除或迁移到日志服务器上。运维会将这些日志mount到远程的日志服务器上,然后开发人员使用运维分配的账号登陆堡垒机器跳转到日志服务器上查看不同项目不同机器的日志。下图是日志服务...转载 2018-07-05 22:06:21 · 2698 阅读 · 1 评论