喵咪大数据
从2011Hadoop1.0问世到现在,渐渐地大数据解决方案已经趋向成熟,笔者觉得也是时间来学习接触一下大数据解决一些在工作中实际遇到的一些棘手的问题,今天开始笔者会带来一整套亲生在大数据里面探索的经验已经一些实践经验来与大家一同分享学习.
-
原创
Hadoop - 企业级大数据管理平台CDH(监控)
附上: 喵了个咪的博客:w-blog.cn cloudera官网: https://www.cloudera.com/ 官方文档地址: https://www.cloudera.com/documentation/enterprise/latest.html 一 , 监控 可以在管理页面看到默认的监控 点击进入莫个具体的组件 也有与之对应的监控指标 二, 自定义...2018-08-26 10:46:08 阅读数 2748 评论数 0 -
原创
Hadoop - 企业级大数据管理平台CDH(小技巧一)
附上: 喵了个咪的博客:w-blog.cn cloudera官网: https://www.cloudera.com/ 官方文档地址: https://www.cloudera.com/documentation/enterprise/latest.html 一 , 磁盘扩容磁盘迁移 对于磁盘增加减少重新分配都是在大数据里面屡见不鲜的内容,当磁盘不够用或者磁盘损坏的时候我们怎么...2018-08-26 10:45:42 阅读数 954 评论数 0 -
原创
Hadoop - 企业级大数据管理平台CDH(HA高可用和Sqoop1)
在使用大数据集群的时候容灾是一件很重要的事情,CM可以非常方便的进行HA配置,CM也支持sqoop1和sqoop2,之前已经配置了sqoop2本节来一起配置sqoop1 附上: 喵了个咪的博客:w-blog.cn cloudera官网: https://www.cloudera.com/ 官方文档地址: https://www.cloudera.com/documentation/en...2018-08-26 09:55:24 阅读数 425 评论数 0 -
原创
Hadoop - 企业级大数据管理平台CDH(安装Hadoop组件)
当我们已经把cm-service和cm-agent安装完成之后,接下来我们就要到最重要的部分了,安装Hadoop组件 附上: 喵了个咪的博客:w-blog.cn cloudera官网: https://www.cloudera.com/ 官方文档地址: https://www.cloudera.com/documentation/enterprise/latest.html 一 , ...2018-08-23 09:30:08 阅读数 509 评论数 0 -
原创
Hadoop - 企业级大数据管理平台CDH(安装cloudera-manager)
准备工作已经完成,接下来我们就要正式的开始在我们服务器集群上搭建CDH 附上: 喵了个咪的博客:w-blog.cn cloudera官网: https://www.cloudera.com/ 官方文档地址: https://www.cloudera.com/documentation/enterprise/latest.html 一 , 安装MYSQL 无论是Hadoop相关组件还...2018-08-18 23:55:11 阅读数 267 评论数 0 -
原创
Hadoop - 企业级大数据管理平台CDH(介绍和准备工作)
哈喽大家好呀,仅经过了一段时间大数据相关的博文又和大家见面了,笔者之前有写过一套Hadoop大数据相关的博客,为什么今天又要开坑呢?当然是有原因,随着不断的学习了解,慢慢意识到之前做法存在很多缺陷,最终对比了比较成熟的解决方案EMR和CDH,最终选择了使用CDH来搭建大数据管理平台,那么我们就开始新的一趴,企业级大数据管理平台CDH的学习吧! 附上: 喵了个咪的博客:w-blog.cn ...2018-08-09 11:15:01 阅读数 2489 评论数 2 -
原创
Azkaban 任务调度系统(使用和小技巧)
上节主要介绍了安装搭建和简单的运行一个job,但是真正使用到实际场景还是需要了解更多的知识,比如任务怎么互相依赖,可以选择指定的节点来执行吗等等一些相关的操作会在本节中进行介绍 附上: 喵了个咪的博客:w-blog.cn Azkaban官网: https://azkaban.github.io 官方文档地址: http://azkaban.github.io/azkaban/docs/...2018-07-26 14:12:17 阅读数 4063 评论数 0 -
原创
Azkaban 任务调度系统(安装搭建)
无论是在业务开发还是在大数据开发中,脚本都是必不可少的存在,在初期我们会使用crontab来解决问题,那么当发现规模变大监控需求可视化需求的到来Crontab已经显然满足不了需求,抱着一颗解决大数据任务脚本和业务任务脚本难题的心态最终在oozie和Azkaban选择了使用Azkaban来作为公共任务调度系统,那么就随着笔者一同来学习Azkaban的基础搭建场景和基本使用吧. 附上: 喵了个...2018-07-26 14:11:34 阅读数 2479 评论数 0 -
原创
[喵咪大数据]初识大数据
大数据互联网时代下大家耳熟能详的名词,但是我们离大数据有多远呢?从2011Hadoop1.0问世到现在,渐渐地大数据解决方案已经趋向成熟,笔者觉得也是时间来学习接触一下大数据解决一些在工作中实际遇到的一些棘手的问题,今天开始笔者会带来一整套亲生在大数据里面探索的经验已经一些实践经验来与大家一同分享学习.附上:喵了个咪的博客:w-blog.cn1.什么是大数据,为什么需要大数据大家可以一起来思考这个问2017-12-08 15:00:04 阅读数 328 评论数 0 -
原创
[喵咪大数据]Hadoop单机模式
千里之行始于足下,学习大数据我们首先就要先接触Hadoop,上节介绍到Hadoop分为Hadoop-HDFS,Hadoop-YARN,Hadoop-Mapreduce组成,分别负责分布式文件存储,任务调度,计算处理,本机我们在单机模式下把Hadoop运行起来并且简单的使用接触Hadoop相关的机制.附上:Hadoop的官网:hadoop.apache.org 喵了个咪的博客:w-blog.cn1.2017-12-11 11:24:56 阅读数 216 评论数 0 -
原创
[喵咪大数据]Hadoop集群模式
既然是大数据无论存储和处理都需要相当大的磁盘或者是处理的资源消耗,那么单机肯定是满足不了我们的需求的,所以本节我们就来了解Hadoop的集群模式搭建,在集群情况下一同配合处理任务分发,存储分担等相关的功能进行实践.附上:Hadoop的官网:hadoop.apache.org 喵了个咪的博客:w-blog.cn1.准备工作安装包清单统一存放到/app/install目录下,暂时只用存放到hadoop2017-12-17 10:22:54 阅读数 252 评论数 0 -
原创
[喵咪大数据]Hadoop节点添加下线和磁盘扩容操作
Hadoop绝非一个简单程序,集群模式下更是如此,所有的数据都存储在Hadoop中如果操作不当会存在丢失数据的风险,那么怎么在安全的情况,扩容下线维护或者磁盘满了怎么增加空间,就是今天的主要内容了.附上:Hadoop的官网:hadoop.apache.org 喵了个咪的博客:w-blog.cn1.增加节点当磁盘满了或节点不够处理速度慢了都需要对节点或者通过增加节点的方式进行磁盘扩容,这个时候就需要2017-12-19 10:04:22 阅读数 534 评论数 0 -
原创
[喵咪大数据]Hive2搭建和基本操作
[喵咪大数据]Hive2搭建和基本操作说的Hadoop生态有一个不得不提的组件那就是,Hive是基于Hadoop结构化存储引擎,能够存储海量的数据,Hive提供了类SQL的方式对数据进行查询检索汇总,大大减少了早期需要使用MapReduce编程的烦扰,今天就和笔者一起来探索Hive的实际应用场景吧.附上: HIVE官网地址:Apache Hive TM 喵了个咪的博客:w-blog.cn1.环境2017-12-25 10:10:17 阅读数 559 评论数 0 -
原创
[喵咪大数据]Hbase搭建和基本使用
说完了Hive我们接着来看另外一个建立在Hadoop基础上的存储引擎HBase,HBase以内存作为缓存数据落地到HDFS的Key-Value数据库,因为使用内存缓存极大保障了数据的实时性和实时查询能力,在实时场景的大数据存储HBase是不可或缺的解决方案,常见又在使用这项技术的业务就是短链,比如你在微信给你的朋友发个URL最终你的朋友获取到的是微信的一个短链接(QQ淘宝都是如此),在HBase中就2017-12-31 10:57:18 阅读数 332 评论数 0 -
原创
[喵咪大数据]Hive+Hbase关联
在之前的章节中我们已经一同学习的Hive和HBase相关的知识,但是Hive和HBase都存在各自的问题,Hive实时性不强单条写入数据慢,HBase查询能力差不具备复杂查询的能力,但是Hive和HBase有个隐藏的功能就是关联操作,既然可以享受到HBase的实时性还可以享受到Hive查询带来的便捷. 附上: 喵了个咪的博客:w-blog.cn 1.前言 *注意:**Hive2.3.0 和2018-01-06 14:27:01 阅读数 302 评论数 0 -
原创
[喵咪大数据]HUE大数据管理工具
日常的大数据使用中经常是在服务器命名行中进行操作,可视化功能仅仅依靠着各个组件自带的网页进行,那么有没有一个可以结合大家能在一个网页上的管理工具呢?答案是肯定的,今天就和大家一起来探索大数据管理工具HUE的庐山真面目. 附上: 喵了个咪的博客:w-blog.cn 1.环境准备 编译依赖 wget http://repos.fedorapeople.org/repos/dchen/ap2018-01-13 14:24:16 阅读数 1180 评论数 0 -
原创
[喵咪大数据]Presto查询引擎
如果大家正在按照笔者的教程尝试使用大数据组件还是之前有使用过相关的组件,大家会发现一个问题HIVE在负责的查询下调用Mapreduce会很慢,在这个场景下就涌现出很多查询引擎来优化,比如大家熟悉的Spark-SQL,Impala,kilin已经今天的主角Presto, Presto以速度和极强的扩展性取得了胜利,不仅能够提高对HIVE数据查询速度还能和异构数据库进行关联查询,比如HIVE和Mysq2018-01-22 11:19:24 阅读数 1224 评论数 0