自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 大数据技术之Flume —— (2)flume进阶flume进阶案例

flume Agent 内部原理ChannelSelectorSinkProcessor二、Flume拓扑结构2.1 简单串联一、flume Agent 内部原理ChannelSelectorChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型,分别是 Replicating(复制)和 Multiplexing(多路复用)ReplicatingSelector 会

2021-09-12 21:42:47 431

原创 大数据技术之Flume —— (1)一文入门学习Flume

Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。agent 是一个jvm进程它以事件的形式将数据从源头送至目的。 一个agent主要由三部分组成 (source sink channel)

2021-09-12 00:16:39 396

原创 Python爬虫爬取小姐姐的美照——经典永不过时

提示:该爬虫基于python3.8 使用urllib库实现爬取文章目录前言 一、pandas是什么? 二、使用步骤 1.引入库 2.读入数据 总结前言默默吐槽一下新学期也太忙了 ,由于最近学的东西较多,之前的专栏也停更过段时间将会继续完善自己的专栏笔记也相当于记录自己的一个学习过程吧,各位小伙伴一起加油干就完事!最近在学习python,在体会到python的简洁提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:panda..

2021-09-08 00:28:40 567 1

原创 大数据技术之Spark ——(二)Spark快速入门案例 WordCount

目录一、IDEA编写wordcount1、本地环境准备【1】创建maven项目【2】添加scala开发框架支持【3】测试scala运行环境是否成功【4】添加spark依赖关系2、编写wordcount【1】准备本地测试文件【2】编写代码【3】运行结果:3、依赖导入下载太慢解决二、Spark编写wordcount一、IDEA编写wordcount1、本地环境准备【1】创建maven项目开发前请保证 IDEA 开发工具中含有 Scala 开发插件.

2021-09-02 15:22:46 703

原创 大数据技术之Spark ——(一)Spark运行模式(local+standalone+yarn)

文章目录前言一、Spark运行环境1.1、spark运行环境概述1.2、local模式1.2.1、上传spark压缩文件并解压1.2.2、启动local环境1.2.3、命令行工具 (wordcount小测试)1.2.4、提交应用1.3、Standalone(独立部署模式)1.3.1、解压缩文件1.3.2、修改配置文件1.3.3、启动集群1.3.4、配置历史服务器1.4、yarn模式1.4.2、修改配置文件1.4.3、启动HDFS和YARN1

2021-08-25 10:20:47 1029 1

原创 大数据技术之hadoop ——(十一)OutputFormat概述、自定义OutputFormat

文章目录一、OutputFormat概述二、自定义OutputFormat前面学习了MapReduce流程中的shuffle阶段,现在学习OutputFormat数据输出一、OutputFormat概述【1】OutputFormat接口实现类:OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了 OutputFormat接口。【2】默认输出格式是TextOutputFormat【3】自定义Ou...

2021-08-22 10:17:19 474 1

原创 大数据技术之hadoop ——(十)Shuffle机制、MapReduce中的shuffle流程

分区 默认分区 HashPartitioner 默认按照key的hashcode值 % numreducetask个数自定义分区;溢写前需要排序 排序部分排序:每个输出文件的内部都是有序的全排序:一个reduce,对所有的数据进行排序二次排序:自定义排序范畴,实现WritableComparable接口,重写CompareTo()先总流量倒序,再按上行流量正序Combiner 预聚合前提条件:不影响最终的业务逻辑,才能使用Combiner

2021-08-21 11:24:19 315

原创 大数据技术之Zookeeper ——(二)zookeeper客户端API操作

zookeeper集群客户端API操作,原生API和CuratorAPI的对比,利用API创建节点、删除节点、查询节点信息状态、监听节点、修改节点

2021-08-17 00:08:55 248

原创 大数据技术之hadoop——(九)InputFormat数据输入与切片机制

本篇文章就从数据输入Inputformat入手,切片与MapTask并行度决定机制MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。思考:1G 的数据,启动 8 个 MapTask,可以提高集群的并发处理能力。那么 1K 的数据,也启动 8 个 MapTask,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?

2021-08-16 23:06:40 298

原创 大数据技术之hadoop——(八)hadoop序列化

什么是序列化:序列化就是将内存中的对象转换为字节传输,反序列化就是将接收到的字节序列转换为对象为什么要序列化:方便传输和持久化为什么不用java的序列化:java序列化泰国笨重 效率不高自定义类实现序列化接口必须有空参构造 序列化和反序列化顺序必须一致,如果要作为key传输则要实现Comparable接口

2021-08-15 23:11:36 149

原创 大数据技术之Zookeeper——(一)Zookeeper的入门与安装+选举机制+客户端常用操作

zookeeper是什么?zookeeper的简介、zookeeper的特点....从零搭建zookeeper集群

2021-08-14 15:36:02 181

原创 大数据技术之hadoop——(七)MapReduce概述+wordcount案例实操

MapReduce·概述 wordcount源码+自定义wordcount案例实操+本地测试+集群测试多图详解

2021-08-12 18:41:20 348

原创 大数据技术之hadoop——(六)HDFS读写流程+nn工作机制+dn工作机制

浅析hdfs的读写流程 nn和2nn的工作机制 dn的工作机制文章目录一、HDFS的读写流程1.1 hdfs写数据流程1.2 hdfs读数据流程二、NameNode和SecondaryNamenode2.1NN和2NN工作机制2.1.1namenode启动2.1.2SecondaryNameNode工作2.2fsimage和edits解析ovi查看fsimage镜像文件oev查看Edits文件2.3 CheckPoint间隔时间设置三、DataNo...

2021-08-12 13:55:34 281

原创 大数据技术之hadoop——(五)HDFS概述+HDFS的Shell操作+HDFS的API操作

大数据技术zhihadoop——HDFS的概述 常用shell命令 常用的HDFS的API操作

2021-08-11 20:00:41 148

原创 大数据技术之hadoop——(四)历史服务器+常用脚本

大数据技术之hadoop详细文章 --——hadoop完全分布式集群的补充

2021-08-10 20:58:19 510 1

原创 大数据技术之hadoop——(三)完全分布式集群搭建(多图详细步骤)

大数据技术之hadoop,最详细从零搭建hadoop完全分布式集群 多图 丝丝入扣循序渐进 虚拟的克隆-->jdk、hadoop的安装与环境变量的配置 my_env.sh--->同步分发脚本---> xsync集群分发脚本--->SSH免密登录----->集群部署 集群规划 +hadoop配置文件的修改--->启动集群 -->集群测试

2021-08-09 23:06:51 2413 1

原创 大数据技术之hadoop——(二)环境准备&模板机创建(详细步骤)

大数据技术之hadoop——从0到1搭建hadoop模板机,详细过程、多图详解、小白最佳入门 ****虚拟机环境准备***模板机创建详细步骤

2021-08-08 00:28:24 375

原创 大数据技术之Hadoop——(一)Hadoop简介

2021大数据技术学习之路

2021-08-04 21:19:36 682

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除