悠米是只猪-CSDN博客

原创 2021-11-13

Flink自定义数据源该篇文章主要通过源码分析自定义数据源是如何实现flink版本为：1.11.1 （怪不得老子是单身 QAQ）1.flink数据源分类flink数据源分为四类：1）readTextFile(path)：读取文本文件，文件遵循TextInputFormat逐行读取规则并返回，相当于hadoop默认的文件读取方式（行读）2）socketTextStream：从Socket中读取数据，元素可以通过一个分隔符分开3）fromCollection(Collection)：通过Java的

2021-11-13 13:15:41 122

原创 2021-04-17

数据来源：拉钩教育大数据高薪开发训练营Hadoop学习第六部分：限额与归档以及集群安全模式1）限额高级命令HDFS文件限额配置HDFS文件的限额配置允许我们以文件大小或者文件个数来限制我们在某个目录下上传的文件数量或者文件内容总量，以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量1.数量限额hdfs dfs -mkdir -p /user/root/lagou #创建hdfs文件夹hdfs dfsadmin -setQuota 2 /user/root/lagou # 给该

2021-04-17 19:54:00 211

原创 2021-04-17

数据来源：拉钩教育大数据高薪开发训练营Hadoop学习第六部分：NameNode与SecondaryNameNode1）HDFS元数据管理机制问题1：NameNode如何管理和存储元数据？计算机中存储数据两种：内存或者是磁盘元数据存储磁盘：存储磁盘无法面对客户端对元数据信息的任意的快速低延迟的响应，但是安全性高；元数据存储内存：元数据存放内存，可以高效的查询以及快速响应客户端的查询请求，数据保存在内存，如果断点，内存中的数据全部丢失。解决方案：内存+磁盘；NameNode内存+FsImage的

2021-04-17 19:39:27 242

原创 2021-04-17

数据来源：拉钩教育大数据高薪开发训练营Hadoop学习第六部分：HDFS读写流程1）HDFS读数据流程1.客户端通过Distributed FileSystem向NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址。2.挑选一台DataNode（就近原则，然后随机）服务器，请求读取数据。3.DataNode开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。4. 客户端以Packet为单位接收，先在本地缓存，然后写入目

2021-04-17 18:42:39 128

原创 2021-04-17

数据来源：拉钩教育大数据高薪开发训练营Hadoop学习第六部分：hdfs的java客户端1）客户端环境准备1.将Hadoop-2.9.2安装包解压到非中文路径（例如：E:\hadoop-2.9.2）2.配置HADOOP_HOME环境变量3.配置Path环境变量。4.创建一个Maven工程ClientDemo5.导入相应的依赖坐标+日志配置文件<dependencies><dependency><groupId>junit</groupId&

2021-04-17 12:01:12 105

原创 2021-04-16

数据来源：拉钩教育大数据高薪开发训练营Hadoop学习第三部分：Hadoop 完全分布式集群搭建第一节软件和操作系统版本Hadoop框架是采用Java语言编写，需要java环境（jvm）JDK版本：JDK8版本linux操作系统：Centos7hadoop版本：hadoop-2.9.2Hadoop搭建方式单机模式：单节点模式，非集群，生产不会使用这种方式单机伪分布式模式：单节点，多线程模拟集群的效果，生产不会使用这种方式完全分布式模式：多台节点，真正的分布式Hadoop集群的搭建（生产

2021-04-16 15:52:37 303

原创 2021-04-16

数据来源：拉钩教育大数据高薪开发训练营Hadoop学习第二部分：Apache Hadoop的重要组成Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块100T数据如何存储？“分而治之” 的思想分：拆分–>数据切割，100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。第一节 HDFS1）HDFS定义（Hadoop Distribute File System ）一个高可靠、高吞吐量的分布式文件系统2）H

2021-04-16 14:47:58 340

原创 2021-04-16

数据来源：拉钩教育大数据高薪开发训练营# 学习目标：Hadoop学习第一部分：Hadoop简介第一节什么是HadoopHadoop 是一个适合大数据的分布式存储和计算平台。Hadoop的广义和狭义之分狭义的Hadoop:指的是一个框架，Hadoop是由三部分组成：HDFS：分布式文件系统–>存储；MapReduce:分布式离线计算框架–>计算；Yarn:资源调度框架;广义的Hadoop:广义Hadoop是不仅仅包含Hadoop框架，除了Hadoop框架之外还有一些辅助框架

2021-04-16 14:20:29 89

原创 2021-04-16

数据来源：拉钩教育大数据高薪开发训练营大数据简介大数据技术解决的主要是海量数据的存储和计算;第一节大数据的定义大数据是指无法在一定时间范围内用常规软件工具进行捕捉（采集）、管理（存储）和处理（计算）的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简言之，大数据就是海量、高增长和多样化的数据组成的集合；第二节大数据的特点大数据的特点可以用 IBM 曾经提出的 “5V” 来描述，如下：大量采集、存储和计算的数据量都非常大。计

2021-04-16 13:56:13 92

原创 2021-04-15

Linux命令之查看硬盘df 查看文件系统硬盘的使用情况1）基本命令df [选项] [目录或文件名]选项说明-h以KB、MB 或 GB 等单位自行显示容量-a显示所有文件系统信息，包括系统特有的 /proc、/sysfs 等文件系统-T显示该分区的文件系统名称-m以 MB 为单位显示容量不使用任何选项的 df 命令，默认会将系统内所有的文件系统信息，以 KB 为单位显示出来。2）功能说明内容说明Filesystem示该文

2021-04-15 17:37:23 73

原创 2021-04-15

数据来源：拉勾教育大数据高新开发训练营Linux命令之查看进程进程是正在执⾏的⼀个程序或命令，每⼀个进程都是⼀个运⾏的实体，都有⾃⼰的地址空间，并占⽤⼀定的系统资源。通过查看进程，进而查看整个系统的运行情况，方便对系统的整体把握，进而做出最好的决策。1.ps查看系统中所有进程1）基本语法ps -aux （功能描述：查看系统中所有进程）2）功能说明选项说明USER该进程是由哪个⽤户产⽣的PID进程的ID号%CPU该进程占⽤CPU资源的百分⽐，占⽤越⾼，进

2021-04-15 17:03:49 79

原创 2021-04-15

数据来源：拉钩教育大数据高薪开发训练营Linux的shell编程Shell 是⼀个⽤ C 语⾔编写的程序，通过 Shell ⽤户可以访问操作系统内核服务。它类似于 DOS 下的command 和后来的 cmd.exe。Shell 既是⼀种命令语⾔，⼜是⼀种程序设计语⾔。 Shell script 是⼀种为 Shell 编写的脚本程序。 Shell 编程⼀般指 Shell 脚本编程，不是指开发 Shell ⾃身。 Shell 编程跟java、 php 编程⼀样，只要有⼀个能编写代码的⽂本编辑器

2021-04-15 11:01:23 170