大数据
文章平均质量分 89
大数据学习笔记
LY丶Smile
简书:http://www.jianshu.com/u/d40d136cad1b
展开
-
Centos 7 离线安装Cloudera Manager6 和CDH6.3.1
零、前言之前写过一篇CDH5的,本文是在之前操作基础上进行的Centos 7 离线安装Cloudera Manager5 和CDH5.13.0CDH6与CDH5安装的整体流程基本一致,而且简单了不少。###一、前期准备安装环境系统配置: 系统:centos 7 64位关于内存,《Hbase权威指南》中master建议24G内存,而slave机器则建议24G及以上配置。机器内存过小,可能会出现各种莫名其妙的问题关于硬盘,作为slave的机器不建议使用RAID,因为RAID比单个磁盘慢。原创 2021-06-09 21:57:53 · 815 阅读 · 0 评论 -
Centos 7 离线安装Cloudera Manager5 和CDH5.13.0
这两天终于是把这个Hadoop集群搭起来了,从装系统到最终成功真是曲折,中间遇到了各种奇葩的问题,比如网太卡了,yum一直访问不了服务器,而我以为某个地方配置失败,各种查看配置文件,重启network,也没发现问题。。。真是个无比惨痛的教训……这篇笔记记录下搭hadoop集群踩过的那些坑,也祝自己以后好运,能够少走点弯路~~一、前期准备安装环境系统配置:系统:centos 7 最原创 2017-10-25 10:20:40 · 9687 阅读 · 5 评论 -
学习笔记 | Spark Streaming 从入门到放弃
上课时,老师讲的几个学习Spark Streaming的几个要点,先放在前面作为指导思想1)核心抽象:DStream2)程序入口:sc = new SparkContext(); new StreamingContext(sc,Seconds(2))3)算子的操作(map、flatMap、transform、updateStateByKey等)PS:本文是Spark Streaming学习笔记,如有问题,欢迎留言指正~PPS:配合实战代码食用会更香哦。 Spark Streaming企业级开原创 2021-06-03 21:32:53 · 218 阅读 · 3 评论 -
Spark Streaming On Yarn实现日志自动化采集
一、目标及思路1.1 目标Spark Streaming运行在Yarn上,查看日志不是很方便,而且日志是一个大文件,无用信息过多。所以打算将必要的业务日志和系统错误日志发送到kafka上,然后做后续的日志分析。本文简单实现了Driver和Executor的日志发送功能,如有问题,请留言或者私信指正,不胜感激~1.2 思路使用kafka-log4j-appenderdriver和executor都有自己默认的日志配置,将其覆盖掉即可1.3 环境CDH6.3.1二、实现2.1 配原创 2021-05-30 11:48:51 · 484 阅读 · 0 评论 -
Spark Streaming企业级开发入门实战
写在前头本文主要是Spark Streaming学习过程中写的一些示例代码,如有bug,请留言指正,不胜感激。1. 包含功能Spark Streaming集成KafkaSpark Streaming与HbaseSpark Streaming与RedisSpark Streaming与MySQL2. 环境集群:CDH6.3.1Spark版本:2.4.0-cdh6.3.1Hbase版本:2.1.0-cdh6.3.13. 源码地址,点击访问GitHub一、理论基础1.1 Spar原创 2021-05-28 19:27:52 · 301 阅读 · 0 评论