自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 2021-11-13

Flink自定义数据源 该篇文章主要通过源码分析自定义数据源是如何实现 flink版本为:1.11.1 (怪不得老子是单身 QAQ) 1.flink数据源分类 flink数据源分为四类: 1)readTextFile(path):读取文本文件,文件遵循TextInputFormat逐行读取规则并返回,相当于hadoop默认的文件读取方式(行读) 2)socketTextStream:从Socket中读取数据,元素可以通过一个分隔符分开 3)fromCollection(Collection):通过Java的

2021-11-13 13:15:41 89

原创 2021-04-17

数据来源:拉钩教育大数据高薪开发训练营 Hadoop学习第六部分:限额与归档以及集群安全模式 1)限额 高级命令 HDFS文件限额配置 HDFS文件的限额配置允许我们以文件大小或者文件个数来限制我们在某个目录下上传的文件数量或者文件内容总量,以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量 1.数量限额 hdfs dfs -mkdir -p /user/root/lagou #创建hdfs文件夹 hdfs dfsadmin -setQuota 2 /user/root/lagou # 给该

2021-04-17 19:54:00 171

原创 2021-04-17

数据来源:拉钩教育大数据高薪开发训练营 Hadoop学习第六部分:NameNode与SecondaryNameNode 1)HDFS元数据管理机制 问题1:NameNode如何管理和存储元数据? 计算机中存储数据两种:内存或者是磁盘 元数据存储磁盘:存储磁盘无法面对客户端对元数据信息的任意的快速低延迟的响应,但是安全性高; 元数据存储内存:元数据存放内存,可以高效的查询以及快速响应客户端的查询请求,数据保存在内存,如果断点,内存中的数据全部丢失。 解决方案:内存+磁盘;NameNode内存+FsImage的

2021-04-17 19:39:27 204

原创 2021-04-17

数据来源:拉钩教育大数据高薪开发训练营 Hadoop学习第六部分:HDFS读写流程 1)HDFS读数据流程 1.客户端通过Distributed FileSystem向NameNode请求下载文件,NameNode通过查询元数据, 找到文件块所在的DataNode地址。 2.挑选一台DataNode(就近原则,然后随机)服务器,请求读取数据。 3.DataNode开始传输数据给客户端(从磁盘里面读取数据输入流,以Packet为单位来做校验)。 4. 客户端以Packet为单位接收,先在本地缓存,然后写入目

2021-04-17 18:42:39 92

原创 2021-04-17

数据来源:拉钩教育大数据高薪开发训练营 Hadoop学习第六部分:hdfs的java客户端 1)客户端环境准备 1.将Hadoop-2.9.2安装包解压到非中文路径(例如:E:\hadoop-2.9.2) 2.配置HADOOP_HOME环境变量 3.配置Path环境变量。 4.创建一个Maven工程ClientDemo 5.导入相应的依赖坐标+日志配置文件 <dependencies> <dependency> <groupId>junit</groupId&

2021-04-17 12:01:12 76

原创 2021-04-16

数据来源:拉钩教育大数据高薪开发训练营 Hadoop学习第三部分:Hadoop 完全分布式集群搭建 第一节 软件和操作系统版本 Hadoop框架是采用Java语言编写,需要java环境(jvm) JDK版本:JDK8版本 linux操作系统:Centos7 hadoop版本:hadoop-2.9.2 Hadoop搭建方式 单机模式:单节点模式,非集群,生产不会使用这种方式 单机伪分布式模式:单节点,多线程模拟集群的效果,生产不会使用这种方式 完全分布式模式:多台节点,真正的分布式Hadoop集群的搭建(生产

2021-04-16 15:52:37 229

原创 2021-04-16

数据来源:拉钩教育大数据高薪开发训练营 Hadoop学习第二部分:Apache Hadoop的重要组成 Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块 100T数据如何存储? “分而治之” 的思想 分:拆分–>数据切割,100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。 第一节 HDFS 1)HDFS定义 (Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统 2)H

2021-04-16 14:47:58 274

原创 2021-04-16

数据来源:拉钩教育大数据高薪开发训练营# 学习目标: Hadoop学习第一部分:Hadoop简介 第一节 什么是Hadoop Hadoop 是一个适合大数据的分布式存储和计算平台。 Hadoop的广义和狭义之分 狭义的Hadoop: 指的是一个框架,Hadoop是由三部分组成: HDFS:分布式文件系统–>存储; MapReduce:分布式离线计算框架–>计算; Yarn:资源调度框架; 广义的Hadoop: 广义Hadoop是不仅仅包含Hadoop框架,除了Hadoop框架之外还有一些辅助框架

2021-04-16 14:20:29 56

原创 2021-04-16

数据来源:拉钩教育大数据高薪开发训练营 大数据简介 大数据技术解决的主要是海量数据的存储和计算; 第一节 大数据的定义 大数据是指无法在一定时间范围内用常规软件工具进行捕捉(采集)、管理(存储)和处理(计算)的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 简言之,大数据就是海量、高增长和多样化的数据组成的集合; 第二节 大数据的特点 大数据的特点可以用 IBM 曾经提出的 “5V” 来描述,如下: 大量 采集、存储和计算的数据量都非常大。 计

2021-04-16 13:56:13 57

原创 2021-04-15

Linux命令之查看硬盘 df 查看文件系统硬盘的使用情况 1)基本命令 df [选项] [目录或文件名] 选项 说明 -h 以KB、MB 或 GB 等单位自行显示容量 -a 显示所有文件系统信息,包括系统特有的 /proc、/sysfs 等文件系统 -T 显示该分区的文件系统名称 -m 以 MB 为单位显示容量 不使用任何选项的 df 命令,默认会将系统内所有的文件系统信息,以 KB 为单位显示出来。 2)功能说明 内容 说明 Filesystem 示该文

2021-04-15 17:37:23 40

原创 2021-04-15

数据来源:拉勾教育大数据高新开发训练营 Linux命令之查看进程 进程是正在执⾏的⼀个程序或命令,每⼀个进程都是⼀个运⾏的实体,都有⾃⼰的地址空间,并占⽤⼀定的系统资源。 通过查看进程,进而查看整个系统的运行情况,方便对系统的整体把握,进而做出最好的决策。 1.ps查看系统中所有进程 1)基本语法 ps -aux (功能描述:查看系统中所有进程) 2)功能说明 选项 说明 USER 该进程是由哪个⽤户产⽣的 PID 进程的ID号 %CPU 该进程占⽤CPU资源的百分⽐,占⽤越⾼,进

2021-04-15 17:03:49 50

原创 2021-04-15

数据来源:拉钩教育大数据高薪开发训练营 Linux的shell编程 Shell 是⼀个⽤ C 语⾔编写的程序, 通过 Shell ⽤户可以访问操作系统内核 服务。它类似于 DOS 下的 command 和后来的 cmd.exe。Shell 既是⼀种命令语⾔,⼜是⼀种程序设计语⾔。 Shell script 是⼀种 为 Shell 编写的脚本程序。 Shell 编程⼀般指 Shell 脚本编程,不是指开发 Shell ⾃身。 Shell 编程跟 java、 php 编程⼀样,只要有⼀个能编写代码的⽂本编辑器

2021-04-15 11:01:23 131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除