yongkangm-CSDN博客

原创 hadoop-Apache Flume

Apache Flume概述flume是一款大数据中海量数据采集传输汇总的软件。特别指的是数据流转的过程，或者说是数据搬运的过程。把数据从一个存储介质通过flume传递到另一个存储介质中。核心组件source ：用于对接各个不同的数据源sink：用于对接各个不同存储数据的目的地（数据下沉地）channel：用于中间临时存储缓存数据运行机制flume本身是java程序在需要采集数据机器上启动 ----->agent进程agent进程里面包含了：source

2021-06-30 00:37:39 127

原创 hadoop-Apache-Sqoop

Apache Sqoopsqoop 安装验证bin/sqoop list-databases \--connect jdbc:mysql://localhost:3306/ \--username root --password hadoop注意事项：命令携带参数必须出现在一行中，若换行就意味着自动提交执行，可通过\表示未结束。全量导入数据到hdfsmysql的地址尽量不要使用localhost 请使用ip或者host如果不指定导入到hdfs默认分隔符是 “,”

2021-06-30 00:37:12 129

原创 hadoop-Apache Impala简介

Apache Impalaimpla是个实时的sql查询工具，类似于hive的操作方式，只不过执行的效率极高，号称当下大数据生态圈中执行效率最高的sql类软件impala来自于cloudera，后来贡献给了apacheimpala工作底层执行依赖于hive 与hive共用一套元数据存储。在使用impala的时候，必须保证hive服务是正常可靠的，至少metastore开启。impala最大的跟hive的不同在于不在把sql编译成mr程序执行编译成执行计划数（勘误：计划树）。impala的s

2021-06-18 01:30:34 242

原创 hadoop-mapreduce-4

##1 .MapReduce的运行机制详解###1.1:MapTask 工作机制整个Map阶段流程大体如上图所示。简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给map（用户自己实现的）进行处理，数据被map处理结束之后交给OutputCollector收集器，对其结果key进行分区（默认使用hash分区），然后写入buffer，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时文件

2021-06-16 01:03:47 95

原创 hadoop-mapreduce-3

MapReduce 排序和序列化序列化 (Serialization) 是指把结构化对象转化为字节流反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, 就需要序列化对象成字节流, 反之当要将接收到或从磁盘读取的字节流转换为对象, 就要进行反序列化Java 的序列化 (Serializable) 是一个重量级序列化框架, 一个对象被序列化后, 会附带很多额外的信息 (各种校验信息, header, 继承体系等）, 不便于

2021-06-16 00:58:36 88

原创 hadoop-mapreduce-2

WordCount需求: 在一堆给定的文本文件中统计输出每一个单词出现的总次数Step 1. 数据格式准备创建一个新的文件cd /export/serversvim wordcount.txt向其中放入以下内容并保存hello,world,hadoophive,sqoop,flume,hellokitty,tom,jerry,worldhadoop上传到 HDFShdfs dfs -mkdir /wordcount/hdfs dfs -put wordcount

2021-06-16 00:58:01 130

原创 hadoop-mapreduce-1

Hadoop-Mapreduce1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责“合”，即对map阶段的结果进行全局汇总。MapReduce运行在yarn集群ResourceManagerNod

2021-06-16 00:56:58 145

原创 hadoop-hdfs-api

Hadoop 核心-HDFS##1:HDFS 的 API 操作###1.1 配置Windows下Hadoop环境在windows系统需要配置hadoop运行环境，否则直接运行代码会出现以下问题:缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries 缺少hadoop.dllUnable to load native-hadoop library for your platf

2021-06-16 00:51:29 80

原创 hadoop-hdfs

Hadoop 核心-HDFS1. HDFS概述###1.1 介绍在现代的企业环境中，单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。 HDFS（Hadoop Distributed File System）是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通

2021-06-16 00:50:31 137

原创 hadoop-安装配置

##Hadoop###1、 Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统（GFS），可用于处理海量网页的存储——分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。Nutch的开发人员完成了相应的开源实现HDF

2021-06-16 00:47:24 82

原创 hadoop-Zookeeper

1. zookeeper的数据模型ZooKeeper 的数据模型，在结构上和标准文件系统的非常相似，拥有一个层次的命名空间，都是采用树形层次结构.ZooKeeper 树中的每个节点被称为—个Znode。和文件系统的目录树一样，ZooKeeper 树中的每个节点可以拥有子节点。但也有不同之处：Znode 兼具文件和目录两种特点。既像文件一样维护着数据、元信息、ACL、时间戳等数据结构，又像目录一样可以作为路径标识的一部分，并可以具有子 Znode。用户对 Znode 具有增、删、改、查

2021-06-16 00:45:28 120

原创 hadoop-yarn

yarn资源调度1.yarn的介绍： yarn是hadoop集群当中的资源管理系统模块，从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源（主要是服务器的各种硬件资源，包括CPU，内存，磁盘，网络IO等）以及调度运行在yarn上面的各种任务。 yarn核心出发点是为了分离资源管理与作业监控，实现分离的做法是拥有一个全局的资源管理（ResourceManager，RM），以及每个应用程序对应一个的应用管理器（ApplicationMast

2021-06-16 00:43:03 194

原创 hadoop-hive

数据仓库-Hive1. 数据仓库1.1. 基本概念英文名称为Data Warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。数据仓库是存数据的，企业的各种数据往里面存，主要目的是为了分析有效数据，后续会基于它产出供分析挖掘的数据，或者数据应用需要的数据，如企业的分析性报告和各类报表等。可以理解为：面向分析的存储系统。1.2. 主要特征数据仓库是面向主题的（Subject-Oriented ）、集成的（In

2021-06-16 00:41:01 134

原创 1-Hadoop讲义-预备知识

##1.大数据课程导论###1.1、大数据概念大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit，按顺序给出所有单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte = 8bit 1K = 1024Byte 1MB = 1024K 1G = 1024M1T = 1024G 1P = 1

2021-04-21 22:48:24 200

原创 ElasticSearch-2

01-今日内容ElasticSearch 高级操作ElasticSearch 集群管理02-ElasticSearch高级操作2.1-bulk批量操作-脚本脚本：测试用的5号文档POST /person1/_doc/5{ "name":"张三5号", "age":18, "address":"北京海淀区"}批量操作文本#批量操作#1.删除5号#新增8号#更新2号 name为2号POST _bulk{"delete":{"_index":"person

2021-04-14 01:08:21 150

原创 Elasticsearch-1

1-今日内容初识 ElasticSearch安装 ElasticSearchElasticSearch 核心概念操作 ElasticSearchElasticSearch JavaAPI2-初识ElasticSearch2.1-基于数据库查询的问题2.2-倒排索引倒排索引：将文档进行分词，形成词条和id的对应关系即为反向索引。以唐诗为例，所处包含“前”的诗句正向索引：由《静夜思》–>窗前明月光—>“前”字反向索引：“前”字–>窗前明月光–&

2021-04-14 00:58:21 91

原创 linux基础-3

| 管道相关命令目标cutsortwcuniqteetrsplitawksedgrep准备数据zhangsan 68 99 26lisi 98 66 96wangwu 38 33 86zhaoliu 78 44 36maq 88 22 66zhouba 98 44 46以上是成绩表信息使用逗号分割, 第一列是姓名, 第二列是语文成绩, 第三列是数学成绩, 第四列是英语成绩需求1: 按照数学成绩排名, 取出前三名需求2:

2021-04-13 22:51:36 444

原创 linux基础-2

文章目录准备工作一、搜索命令1.find 搜索1.1 目标1.2 路径1.3 实现 : 在指定目录中根据名称搜索命令格式第一步: 搜索指定目录下, 文件是 abc.txt的文件第二步: 搜索指定目录下, 文件名包含 `1` 的文件第三步: 搜索指定目录下,所有以`.txt` 为扩展名的文件第四步: 搜索指定目录下, 以数字`1`开头的文件1.3 小结解压缩命令1.目标2 路径3.实现3.1 第一步: 打包和解包3.1.1 打包3.1.2 解包小结3.2 第二步: 使用gzip格式压缩和解压缩

2021-04-13 22:50:54 963

原创 linux基础-1

文章目录一、操作系统概述目标1 操作系统(Operation System, OS)2 不同应用利于的主流操作系统2.1 桌面操作系统2.2 服务器操作系统2.3 嵌入式操作系统2.4 移动设备操作系统2 发展史3 内核4 发行版二、系统安装目标1 VM虚拟机1.1 概述1.2 安装虚拟机1.3 配置网卡目标a. 网络原理b. 确保 `VMnet8` **已经启动**c. 设置VMnet8的ip地址d. 确保所有关于VMWare的服务都开启e 配置虚拟机的网卡2 centos是linux的发行版2.1 目标

2021-04-13 22:50:25 2469

原创 JVM优化-1

JVM优化 - 第一天今日内容了解下我们为什么要学习JVM优化掌握jvm的运行参数以及参数的设置掌握jvm的内存模型（堆内存）掌握jamp命令的使用以及通过MAT工具进行分析掌握定位分析内存溢出的方法掌握jstack命令的使用掌握VisualJVM工具的使用 1、我们为什么要对jvm做优化？在本地开发环境中我们很少会遇到需要对jvm进行优化的需求，但是到了生产环境，我们可能将有下面的需求：运行的应用“卡住了”，日志不输出，程序没有反应服务器的CPU负载突然升高在多线程应

2021-04-13 22:49:10 251

原创 ykmcsdn

第一篇以后需要记录我的学习内容。整理笔记的地方。

2020-05-16 11:33:28 84

weixin_38513683的博客