自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 hadoop-Apache Flume

Apache Flume概述flume是一款大数据中海量数据采集传输汇总的软件。特别指的是数据流转的过程,或者说是数据搬运的过程。把数据从一个存储介质通过flume传递到另一个存储介质中。核心组件source :用于对接各个不同的数据源sink:用于对接各个不同存储数据的目的地(数据下沉地)channel:用于中间临时存储缓存数据运行机制flume本身是java程序 在需要采集数据机器上启动 ----->agent进程agent进程里面包含了:source

2021-06-30 00:37:39 127

原创 hadoop-Apache-Sqoop

Apache Sqoopsqoop 安装验证bin/sqoop list-databases \--connect jdbc:mysql://localhost:3306/ \--username root --password hadoop注意事项:命令携带参数必须出现在一行中,若换行就意味着自动提交执行,可通过\表示未结束。全量导入数据到hdfsmysql的地址尽量不要使用localhost 请使用ip或者host如果不指定 导入到hdfs默认分隔符是 “,”

2021-06-30 00:37:12 129

原创 hadoop-Apache Impala简介

Apache Impalaimpla是个实时的sql查询工具,类似于hive的操作方式,只不过执行的效率极高,号称当下大数据生态圈中执行效率最高的sql类软件impala来自于cloudera,后来贡献给了apacheimpala工作底层执行依赖于hive 与hive共用一套元数据存储。在使用impala的时候,必须保证hive服务是正常可靠的,至少metastore开启。impala最大的跟hive的不同在于 不在把sql编译成mr程序执行 编译成执行计划数(勘误:计划树)。impala的s

2021-06-18 01:30:34 242

原创 hadoop-mapreduce-4

##1 .MapReduce的运行机制详解###1.1:MapTask 工作机制整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输出结果,当缓冲区快满的时候需要将缓冲区的数据以一个临时文件

2021-06-16 01:03:47 95

原创 hadoop-mapreduce-3

MapReduce 排序和序列化序列化 (Serialization) 是指把结构化对象转化为字节流反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, 就需要序列化对象成字节流, 反之当要将接收到或从磁盘读取的字节流转换为对象, 就要进行反序列化Java 的序列化 (Serializable) 是一个重量级序列化框架, 一个对象被序列化后, 会附带很多额外的信息 (各种校验信息, header, 继承体系等), 不便于

2021-06-16 00:58:36 88

原创 hadoop-mapreduce-2

WordCount需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数Step 1. 数据格式准备创建一个新的文件cd /export/serversvim wordcount.txt向其中放入以下内容并保存hello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoop上传到 HDFShdfs dfs -mkdir /wordcount/hdfs dfs -put wordcount

2021-06-16 00:58:01 130

原创 hadoop-mapreduce-1

Hadoop-Mapreduce1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。MapReduce运行在yarn集群ResourceManagerNod

2021-06-16 00:56:58 145

原创 hadoop-hdfs-api

Hadoop 核心-HDFS##1:HDFS 的 API 操作###1.1 配置Windows下Hadoop环境在windows系统需要配置hadoop运行环境,否则直接运行代码会出现以下问题:缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少hadoop.dllUnable to load native-hadoop library for your platf

2021-06-16 00:51:29 80

原创 hadoop-hdfs

Hadoop 核心-HDFS1. HDFS概述###1.1 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。​ HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通

2021-06-16 00:50:31 137

原创 hadoop-安装配置

##Hadoop###1、 Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。Nutch的开发人员完成了相应的开源实现HDF

2021-06-16 00:47:24 82

原创 hadoop-Zookeeper

1. zookeeper的数据模型ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层次的命名空间,都是采用树形层次结构.ZooKeeper 树中的每个节点被称为—个Znode。和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点。但也有不同之处:Znode 兼具文件和目录两种特点。既像文件一样维护着数据、元信息、ACL、 时间戳等数据结构,又像目录一样可以作为路径标识的一部分,并可以具有 子 Znode。用户对 Znode 具有增、删、改、查

2021-06-16 00:45:28 120

原创 hadoop-yarn

yarn资源调度1.yarn的介绍:​ yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。 yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理(ResourceManager,RM),以及每个应用程序对应一个的应用管理器(ApplicationMast

2021-06-16 00:43:03 194

原创 hadoop-hive

数据仓库-Hive1. 数据仓库1.1. 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以理解为:面向分析的存储系统。1.2. 主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(In

2021-06-16 00:41:01 134

原创 1-Hadoop讲义-预备知识

##1.大数据课程导论###1.1、大数据概念大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M1T = 1024G 1P = 1

2021-04-21 22:48:24 200

原创 ElasticSearch-2

01-今日内容ElasticSearch 高级操作ElasticSearch 集群管理02-ElasticSearch高级操作2.1-bulk批量操作-脚本脚本:测试用的5号文档POST /person1/_doc/5{ "name":"张三5号", "age":18, "address":"北京海淀区"}批量操作文本#批量操作#1.删除5号#新增8号#更新2号 name为2号POST _bulk{"delete":{"_index":"person

2021-04-14 01:08:21 150

原创 Elasticsearch-1

1-今日内容初识 ElasticSearch安装 ElasticSearchElasticSearch 核心概念操作 ElasticSearchElasticSearch JavaAPI2-初识ElasticSearch2.1-基于数据库查询的问题2.2-倒排索引倒排索引:将文档进行分词,形成词条和id的对应关系即为反向索引。以唐诗为例,所处包含“前”的诗句正向索引:由《静夜思》–>窗前明月光—>“前”字反向索引:“前”字–>窗前明月光–&

2021-04-14 00:58:21 91

原创 linux基础-3

| 管道相关命令目标cutsortwcuniqteetrsplitawksedgrep准备数据zhangsan 68 99 26lisi 98 66 96wangwu 38 33 86zhaoliu 78 44 36maq 88 22 66zhouba 98 44 46以上是成绩表信息使用 逗号 分割, 第一列 是 姓名, 第二列是 语文成绩, 第三列是 数学成绩, 第四列是 英语成绩需求1: 按照 数学成绩排名, 取出前三名需求2:

2021-04-13 22:51:36 444

原创 linux基础-2

文章目录准备工作一、搜索命令1.find 搜索1.1 目标1.2 路径1.3 实现 : 在指定目录中 根据名称 搜索命令格式第一步: 搜索指定目录下, 文件是 abc.txt的文件第二步: 搜索指定目录下, 文件名 包含 `1` 的文件第三步: 搜索指定目录下,所有以`.txt` 为扩展名的文件第四步: 搜索指定目录下, 以数字`1`开头的文件1.3 小结解压缩命令1.目标2 路径3.实现3.1 第一步: 打包 和 解包3.1.1 打包3.1.2 解包小结3.2 第二步: 使用gzip格式 压缩 和 解压缩

2021-04-13 22:50:54 963

原创 linux基础-1

文章目录一、操作系统概述目标1 操作系统(Operation System, OS)2 不同应用利于的主流操作系统2.1 桌面操作系统2.2 服务器操作系统2.3 嵌入式操作系统2.4 移动设备操作系统2 发展史3 内核4 发行版二、系统安装目标1 VM虚拟机1.1 概述1.2 安装虚拟机1.3 配置网卡目标a. 网络原理b. 确保 `VMnet8` **已经启动**c. 设置VMnet8的ip地址d. 确保所有关于VMWare的服务都开启e 配置虚拟机的网卡2 centos是linux的发行版2.1 目标

2021-04-13 22:50:25 2469

原创 JVM优化-1

JVM优化 - 第一天 今日内容了解下我们为什么要学习JVM优化 掌握jvm的运行参数以及参数的设置 掌握jvm的内存模型(堆内存) 掌握jamp命令的使用以及通过MAT工具进行分析 掌握定位分析内存溢出的方法 掌握jstack命令的使用 掌握VisualJVM工具的使用  1、我们为什么要对jvm做优化?在本地开发环境中我们很少会遇到需要对jvm进行优化的需求,但是到了生产环境,我们可能将有下面的需求: 运行的应用“卡住了”,日志不输出,程序没有反应 服务器的CPU负载突然升高 在多线程应

2021-04-13 22:49:10 251

原创 ykmcsdn

第一篇 以后需要记录我的学习内容。整理笔记的地方。

2020-05-16 11:33:28 84

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除