
大数据
文章平均质量分 93
大数据入门和常用框架的学习
菜菜的大数据开发之路
Java技术栈 AND 大数据开发,学习笔记, 拒绝水文
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
零, 消息队列的两种模式和应用场景, 以及Kafka 消息队列的特点
零, 消息队列自问自答环节:[0.什么是消息队列(MQ) ?]消息队列从实质上来说就是一个包含了消息发送接收对象, 存放消息队列的结构, 可归结为: 一发一存一消费,.综上来看, 消息队列就是: 生产者将消息投递到一个叫队列的容器中, 然后再从这个容器中取出消息, 最后转发给消费者.消息队列MQ 最常用的模式有两种, 点对点模式 和 发布/订阅模式.[1. 什么是点对点模式?]就是前面提到的最原始的消息队列,生产者把消息存储到队列中, 消费者从队列中取出消息, 如果存在多个原创 2021-10-29 16:54:37 · 649 阅读 · 0 评论 -
五, Flume常见组件类型的用法总结
文章目录零, 官方API一, Source(接收并处理数据)1.1 `exec` 类型的Soruce组件1.2 `netcat`类型的Source组件1.3 `spooldir`类型的Source组件1.4 `taildir`类型的Source组件1.4 `avro`类型的Source组件二, Channel2.1 `memory`类型的Channel组件2.2 `file`类型的Channel组件2.3 `kafka`类型的Channel组件三, Sink3.1 `logger`类型的sink组件3.2原创 2021-10-06 15:00:39 · 716 阅读 · 0 评论 -
四, 通过Ganglia实现监控Flume数据流
一, 什么是Ganglia ?Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。二, Ganglia 的安装和部署对分布式集群的安装前规划主机要安装的内容bigdata01web客原创 2021-10-04 14:43:05 · 557 阅读 · 0 评论 -
三, Flume 进阶下-- Flume自定义拦截器, 自定义Sources, 自定义Sinks
三, Flume 进阶- 自定义拦截器, 自定义Sources, 自定义Sinks3.1 自定义Intercepter拦截器我们结合实际例子了解自定义拦截器和多路复用channel选择器的结合使用.[案例需求]使用Flume 采集服务器本地日志, 我们需要根据日志类型的不同, 将不同种类的日志发往不同的分析系统. 本案例中, 我们以端口数据模拟日志(netcat 发送数据), 以单个数字和单个字母来模拟不同类型的日志.我们需要使用定义intercepter 区分数字和字母, 然后使用多路复用ch原创 2021-10-04 14:35:26 · 620 阅读 · 0 评论 -
二,Flume进阶上--Flume 事务和拓扑结构(串联, 复制和多路复用, 负载均衡或故障转移,聚合)
二, Flume 事务和拓扑结构2.1, Flume事务在Flume工作流程中, 主要有两大事务,分别是在数据接收端Source和数据缓冲区Channel之间的 Put事务(推送)Put事务:doPut: 将批数据写入临时缓冲区putList.doCommit: 检查channel内存队列是否足够合并.doRollback: 当channel内存队列空间不足(sink从channel拉取的数据量小于source放入channel的数据量), 会回滚数据.数据缓冲区Chan原创 2021-10-04 14:20:16 · 525 阅读 · 0 评论 -
三-下-1, 数据清洗(ETL)和计数器浅析及案例实操
三, 数据清洗(ETL)和计数器 浅析 及案例实操ETL“ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库在运行核心业务 MapReduce 程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行 Mapper 程序,不需要运行 Reduce 程序。计数器3.1 数据原创 2021-07-21 10:36:18 · 530 阅读 · 0 评论 -
三-下-0, MapReduce Join 浅析及案例实操
三-下-0, MapReduce Join 浅析及案例实操MapReduce能执行大型数据集间的"连接"(join)操作.连接操作的具体实现技术取决于数据集的规模及区分方式.如果一个数据集很大(例如天气记录), 而另外一个集合很小(例如气象站元数据), 小到以至于可以分发到集群中的每一个节点之中.则可以执行一个MapReduce作业,将各个气象站的天气记录放到一块(例如, 根据气象站ID执行部分排序), 从而实现连接. Mapper或Reducer根据各气象站ID从较小的数据集合中找到气象站元数据,使原创 2021-07-20 21:24:30 · 484 阅读 · 1 评论 -
三-中下-0, MapReduce - Job提交和切片流程源码详解
3.1.2 Job提交流程源码和切片源码详解3.1.2.1 Job提交流程源码详解1. waitForCompletion()我们从Driver类, job.waitForCompletion处打断点进入方法内. public boolean waitForCompletion(boolean verbose) throws IOException, InterruptedException, ClassNotFoundException { ////判断状态是否为`DEFI原创 2021-07-11 21:02:57 · 715 阅读 · 2 评论 -
三-中上, 大数据基础架构Hadoop- Hadoop序列化概述和案例实操 hf
文章目录二, Hadoop序列化2.1 序列化概述2.2 自定义bean对象实现序列化接口(Writable)2.3 序列化案例实操二, Hadoop序列化2.1 序列化概述[什么是序列化 ?]序列化 就是把内存中的对象, 转换为字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络存储.反序列化 就是将收到的字节序列(或其他数据传输协议)或者是磁盘的持久化数据, 转换为内存中的对象.简而言之就是, 序列化是把对象转化为可传输的字节序列, 反序列化是把可传输的字节序列转化为原创 2021-07-08 08:08:02 · 414 阅读 · 1 评论 -
三-上, 大数据基础架构Hadoop- Mapreduce概述以及经典WordCount案例实操 hf
一, MapReduce概述1.1 MapReduce定义MapReduce是一个分布式程序的编程框架, 使用户开发"基于Hadoop的数据分析应用"的核心框架.MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完成的分布式运算程序, 并发运行在Hadoop集群上.1.2 MapReduce优缺点优点缺点易于编程(只需实现一些接口, 就能完成分布式程序)不擅长实时性计算(做不到秒回计算结果)良好的扩展性(简单的增加机器来提升算力)不擅长原创 2021-07-05 16:55:22 · 480 阅读 · 2 评论 -
二-0, 大数据基础架构Haoop- 在Windows客户机上对HDFS的API操作
一, API操作前的准备工作〇, 目的实现在Windows环境下, 从客户端机器远程操作集群.具体的步骤:配置客户端机器的环境变量配置maven相关的环境变量使用IDE, 新建maven工程在pom文件中增加相应的依赖reload maven工程, 下载依赖1. 1 客户端环境变量的配置下载windows环境下的hadoop依赖文件, 解压到自定义目录下(非中文目录, 这里使用C:\hadoop_dependency\hadoop-3.1.0), 然后在系统变量中添加新的原创 2021-06-30 16:17:53 · 405 阅读 · 1 评论 -
二, 大数据基础架构Hadoop-HDFS入门和基本操作(基本组成, Shell操作, API操作, 读写流程) hf
一, HDFS概述1.1 HDFS的产生背景和定义随着数据量越来越大,我们需要把文件分布存储到多台计算机上,分布式文件管理系统作为一种管理多台机器上文件的系统应运而生, HDFS是其中的一种.HDFS定义:Hadoop Distributed File System,通过目录树来定位文件分布式的. 很多服务器联合起来实现功能,集群中的服务器有各自的角色.使用场景: 适合一次写入,多次读取的场景. 一个文件经过创建,写入和关闭后就不需要改变1.2, HDFS的优缺点:优点:原创 2021-06-28 16:05:28 · 1126 阅读 · 2 评论 -
一, Hadoop基础架构初步认识 2
一, Hadoop基础架构初步认识文章目录一, Hadoop基础架构初步认识1.1 Hadoop的四高特点1.2 Hadoop 1.x, 2.x, 3.x的发展1.3 HDFS架构概述-(海量数据的存储)1.3.1 HDFS组成1.4 Yarn架构概述1.4.1 Yarn组成1.5 MapReduce架构概述(海量数据的计算)1.6 HDFS, Yarn, MapReduce三者之间的关系1.7 大数据的技术生态体系问题1:Q: 为什么不能用配有大量硬盘的数据库做大规模数据分析? 我们为什么需原创 2021-06-28 11:44:40 · 228 阅读 · 0 评论 -
大数据集群节点之间的文件或配置同步方法(集群分发脚本) 1
一, scp(secure copy- 安全拷贝)命令1.1 scp 入门[scp的定义]scp可以实现服务器与服务器之间的数据拷贝.[scp语法] scp -r $pdir/$filename $user@$host:$pdir/$filename #递归(传输的是目录) # 要拷贝的文件路径/名称 #拷贝目的地 用户名@主机名: 目的地路径/目录名1.2 scp案例实操在bi原创 2021-06-22 11:58:58 · 2250 阅读 · 0 评论 -
一文让你彻底烂熟于心, Hadoop完全分布式集群的安装部署 1
Hadoop简单入门及集群的安装部署详细步骤一,前置知识Hadoop: 适合海量数据分布式计算(多台计算机并行处理数据)和分布式存储hadoop的版本:原生版:Apache-hadoop发行版:CDH,HDPHadoop核心架构的发展历史MapReduce: 分布式计算(负责海量数据的分布计算)HDFS(Hadoop Distributed File System): 分布式文件系统(负责海量数据的存储)YARN: 集群资源的管理和调度二,集群的结构原创 2021-03-05 21:49:45 · 1067 阅读 · 0 评论 -
SSH免密登录及在HADOOP集群中的应用 2
SSH免密登录SSH协议简介SSH 为 Secure Shell 的缩写,由 IETF 的网络小组(Network Working Group)所制定;SSH 为建立在应用层基础上的安全协议。SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。简单来说ssh是一种加密的用于远程登录的协议。SSH加密的方式对称加密假如计算机A要发送一段文字给计算机B,但是又不想让别人知道,最简单的办法就是,使用一大段密码进行加密,原创 2021-03-05 12:47:27 · 743 阅读 · 0 评论