黑马程序员官方博客

传智播客，改变中国软件教育，我们正在行动！

大数据

关注

文章平均质量分 86

关注数：文章数：32 文章阅读量：30528 文章收藏量：135

作者: 黑马程序员官方

国内公认的好口碑IT教育机构，持续提供优质免费资源，让千万学子少走弯路！黑马程序员是A股上市公司传智教育旗下子品牌，已培养30余万IT人才，每10名学员有7名来自老学员推荐。

展开

flink学习day05：checkpoint 原理与实践

基于state出发，flink基于与state可以做非常多复杂的事情，但是state是存储在内存中，内存中的数据是不安全的易丢失的，所以flink为了解决这个问题就引入了checkpointed机制，所谓的checkpointe就是把整个flink job的某一瞬间的状态数据进行快照（拍照），后续可以从这个快照（持久到外部存储）。为了解决同步io，与外部系统交互吞吐量下降明显的问题，出现异步IO，异步io无需单纯等待响应，发送请求之后可以继续发送请求，如果那个请求由返回则处理哪个结果，大大提高吞吐能力。

原创 2023-02-27 11:45:39 · 905 阅读 · 0 评论
Flink基础入门（含案例）

大数据技术框架发展阶段总共有四代，mr-->DAG框架（tez）--->Spark流批处理框架，内存计算（伪实时）-->flink流批处理，内存计算（真正的实时计算）flink是一个分布式，高性能，随时可用的以及准确的流处理计算框架，flink可以对无界数据（流处理）和有界数据（批处理）进行有状态计算（flink天生支持状态计算）的分布式，高性能的计算框架。

原创 2023-02-16 16:25:17 · 3459 阅读 · 0 评论
flink学习day04：对Event Time 与 Watermark的理解

基于watermark+eventime只能解决部分数据延迟问题，不能完全解决，对于watermark无法解决的延迟数据，flink默认是丢弃的，如果我们需要保证数据完全不丢失可以再使用allowedlateness+侧道输出来保证。使用eventtime进行计算才是正确，符合数据发生的时间。flink中我们可以把一个流广播到另一个流中，不是简单的双流join操作，广播流中的数据作为state存在，我们可以在事件流中获取广播流中存在state中的数据，方便我们的处理。

原创 2023-02-21 15:01:54 · 487 阅读 · 0 评论
flink学习day03：flink datastream 开发

flink的stream程序都是通过addSource(sourcefunction)来添加数据源，我们可以自定义数据源，通过继承ParallelSourceFunction RichParallelSourceFunction 来实现自己的数据源。参考代码/*自定义数据源，练习生成订单数据*///订单信息(订单ID、用户ID、订单金额、时间戳)/*1. 创建订单样例类2. 获取流处理环境3. 创建自定义数据源- 循环1000次- 随机构建订单信息- 上下文收集数据。

原创 2023-02-20 10:47:15 · 554 阅读 · 0 评论
flink学习day02:：datasource、transforma和sink

map与mappartition最终效果实际是一样的，但是对于mappartition可以让我们有机会对整个分区的数据看做一个整体进行处理，此外还给我们创建了针对当前分区只需做一次的昂贵动作的机会。min也可以计算最小值，但是返回的数据是包含最小值字段的数据，但是有可能其它字段是不正确的，所以想要获取最小值要使用minby,max与maxby同理。最后保存数据到文件时，如果只有一个并行度最终会保存为一个文件，如果是多个并行度最后是在文件中生成多个并行度对应的文件。

原创 2023-02-17 16:33:27 · 409 阅读 · 0 评论
Scala基础语法之Trait详解

有些时候, 我们会遇到一些特定的需求, 即: 在不影响当前继承体系的情况下, 对某些类(或者某些对象)的功能进行加强, 例如: 有猴子类和大象类, 它们都有姓名, 年龄, 以及吃的功能, 但是部分的猴子经过马戏团的训练后, 学会了骑独轮车. 那骑独轮车这个功能就不能定义到父类(动物类)或者猴子类中, 而是应该定义到特质中. 而Scala中的特质, 要用关键字trait修饰.概述设计模式（Design Pattern）是前辈们对代码开发经验的总结，是解决特定问题的一系列套路。

原创 2023-01-14 14:08:10 · 2210 阅读 · 0 评论
大数据用户画像之Oozie、Hue集成Spark2 应用调度

转存失败重新上传取消在没有工作流调度系统之前，公司里面的任务都是通过于是，出现了一些管理crontab任务的调度系统，如等。而在，现在市面上常用的工作流调度工具有等。由于公司安装CDH集群时已经安装好Oozie，且有对应的可视化操作工具Hue，所以直接选择Oozie进行工作流调度啦！Oozie主要有三个主要概念，分别是。Oozie本质是通过运行某个具体的Action。是一个的 MR作业，而且并不知道它将在集群的哪台机器上执行这个MR作业。

原创 2023-01-13 17:57:46 · 781 阅读 · 0 评论
一文掌握scala中的方法和函数

实际开发中, 我们需要编写大量的逻辑代码, 这就势必会涉及到重复的需求. 例如: 求10和20的最大值, 求11和22的最大值, 像这样的需求,用来进行比较的逻辑代码需要编写两次, 而如果把比较的逻辑代码放到方法中, 只需要编写一次就可以了, 这就是方法. scala中的方法和Java方法类似, 但scala与Java定义方法的语法是不一样的。语法val 函数变量名 =(参数名 : 参数类型 , 参数名 : 参数类型 . . . .) => 函数体在Scala中, 函数是一个对象（变量）

原创 2023-01-11 11:25:57 · 827 阅读 · 0 评论
Scala基础学习之for循环和while循环

在实际开发中, 我们要编写成千上万行代码, 代码的顺序不同, 执行结果肯定也会受到一些影响, 并且有些代码是满足特定条件才能执行的, 有些代码是要重复执行的. 那如何合理规划这些代码呢?这就需要用到: 流程控制结构了.顺序结构是指: 程序是按照从上至下, 从左至右的顺序, 依次逐行执行的, 中间没有任何判断和跳转.如图:注意: 顺序结构是Scala代码的默认流程控制结构.选择结构是指: 某些代码的执行需要依赖于特定的判断条件, 如果判断条件成立, 则代码执行, 否则, 代码不执行.

原创 2023-01-10 16:28:51 · 1137 阅读 · 0 评论
Scala基础学习之运算符

用来拼接变量或者常量的符号就叫: 运算符, 而通过运算符连接起来的式子就叫: 表达式. 实际开发中, 我们会经常用到它.例如: 10 + 3 这个就是一个表达式, 而+号, 就是一个运算符.注意: 在Scala中, 运算符并不仅仅是运算符, 也是函数的一种, 这点大家先了解即可, 后续我们详细讲解.赋值运算符指的就是用来进行赋值操作的符号. 例如: 把一个常量值, 或者一个变量值甚至是某一段代码的执行结果赋值给变量, 这些都要用到赋值运算符.关系运算符指的就是用来进行比较操作的符号。

原创 2023-01-10 10:40:35 · 537 阅读 · 0 评论
大数据框架 | Hue与软件的集成

注意修改完HDFS相关配置后，需要把配置scp给集群中每台机器，重启hdfs集群。

原创 2023-01-05 16:24:15 · 296 阅读 · 0 评论
干货丨什么是大数据系统存储及管理？

根据数据存储和管理的内容范围，大数据存储及管理技术需要重点研究，如何解决大数据的可存储、可表示、可处理、可靠性及有效传输等问题。在大数据存储和管理发展过程中，出现了几种较为有效的存储和管理大数据的方式，下面和播妞一起来学习吧！大数据系统存储及管理1. 不断加密对于任何一个企业来说，任何类型的数据都可能是至关重要且私有的，只有能在自己掌控的范围内才可以说是安全的。然而，很多行业巨头容易成为黑客攻击的首要目标，许多公司会对此有危机感。随着企业为保护资产而全面开展对于黑客的反击，加密技术成为了打击网络威

原创 2021-10-07 14:38:31 · 890 阅读 · 0 评论
干货丨Hadoop安装步骤！详解各目录内容及作用

Hadoop是Apache基金会面向全球开源的产品之一，任何用户都可以从Apache Hadoop 官网下载使用。今天，播妞将以编写时较为稳定的Hadoop2.7.4版本为例，详细讲解Hadoop的安装。先将下载的hadoop-2.7.4.tar.gz安装包上传到主节点hadoop01的/export/software/目录下，然后将文件解压到/export/servers/目录，具体指令如下。$ tar -zxvf hadoop-2.7.4.tar.gz -C /export/servers/执行

原创 2021-10-07 14:30:03 · 428 阅读 · 0 评论
Spark SQL架构工作原理及流程解析

前言Spark SQL架构工作原理及流程解析，spark sql从shark发展而来，Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑。Spark SQL兼容Hive，因为Spark SQL架构与Hive底层结构相似，Spark SQL复用了Hive提供的元数据仓库（Metastore）、HiveQL、用户自定义函数（UDF）以及序列化和反序列工具（SerDes），深入了解Spark SQL底层架构：Spark SQL架构与Hive架

转载 2021-05-27 14:54:18 · 868 阅读 · 0 评论
Spark大数据之深度理解RDD的内在逻辑（5000字案例干货！）

文章目录一、深入RDD1. 案例1.1 假设要针对整个网站的历史数据进行梳理，量有1T，如何处理？1.2 如何放在集群中运行3. 如何放在集群中的话，可能要整个计算任务进行分解，如何分解？1.4 移动数据不如移动计算是一个基础的优化，如何做到？1.5 在集群中运行，需要很多节点之间的配合，出错概率也高，出错怎么办？1.6 假如任务特别复杂流程长，有很多RDD之间有依赖关系如何优化？二、再谈RDD2.1 RDD为什么会出现2.2 RDD的特点2.3 什么叫做弹性分布式数据集总结RDD的五大特性首先整理一下上.

原创 2021-05-17 18:23:28 · 237 阅读 · 0 评论
Java数据可视化基础理论知识，企业员工数据导入导出案例

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1、开发环境搭建2、Excel说明2.1 Excel的两种版本2.2 常见的Excel操作工具2.2.1 JXL2.2.2 POI3、使用JXL导出excel3.1 使用jxl导出基本知识点3.2 代码实现导出用户列表数据4、POI操作excel4.1、POI操作Excel高低版本区别4.2、实现用户数据的导入4.2.1、需求4.2.2 、思路4.2.3、代码实现4.3、实现用户数据的导出4.3.1、需求4.3.2、基本思路4

原创 2021-04-19 18:43:41 · 248 阅读 · 0 评论
2021云计算大数据自学知识点（完整版路线）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Java编程语言基于大数据学Java文章合集二、Linux三、数据库四、zookeeper五、Hadoop六、Spark实战前言前言：随着数据对生产、生活越来越重要，数据分析也逐渐成为一门显学，在各个领域中都发挥着重要的作用。国家现状衍生出统计学，从博彩诞生的概率论，味数据分析奠定了基础。从霍乱神医斯诺，到护理之祖南丁格尔，从二战日本的自杀袭击，到一球成名中的”金金“计较的球队经理，从商业智能到公司治理，从大数据到人工

原创 2021-04-14 16:26:39 · 779 阅读 · 0 评论
大数据入门难？自学大数据基础入门知识点合集

大数据系列文章知识点理解大数据相关概念、特点、应用场景掌握大数据业务分析基本步骤掌握分布式、集群相关概念掌握Hadoop相关概念、Hadoop架构掌握Hadoop集群搭建掌握Hadoop各组件模块功能了解HDFS基准测试文章目录大数据系列文章知识点大数据学习开篇：了解大数据导论、清楚大数据应用领域和前景大数据学习连载02篇：业务分析步骤、数据的收集、整理、展现以及工作报告大数据学习连载03篇：分布式技术（集群、负载、弹性、故障等知识点）大数据学习连载04篇：Hadoop概述（发展

原创 2021-04-08 18:36:41 · 299 阅读 · 0 评论
5天玩转MySQL：数据库概念、SQL介绍、数据库和数据表基本操作、字符表

数据库概念数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库：存储数据的仓库数据库分类网络数据库网络数据库是指把数据库技术引入到计算机网络系统中，借助于网络技术将存储于数据库中的大量信息及时发布出去；而计算机网络借助于成熟的数据库技术对网络中的各种数据进行有效管理，并实现用户与网络中的数据库进行实时动态数据交互。层级数据库层次结构模型实质上是一种有根结点的定向有序树(在数学中"树"被定义为一个无回的连通图)。关系数据库关系

原创 2021-04-06 16:17:06 · 678 阅读 · 0 评论
HDFS入门和应用开发：实战微博HDFS案例（下）

继上一篇文章，我们继续实战学习HDFS微博案例。十一、需求：追加数据到HDFS数据文件在数据集中有一个caixukun_new.csv数据集，是20190811这一天重新生成的数据。我们需要将这个文件上传到HDFS中。有两种做法：直接将新文件上传到HDFS中20190811文件夹中。将新文件追加到之前的数据文件caixukun.csv中。这里，我们更倾向于使用第二种方案。HDFS设计的初衷就是存储超大型的文件，文件数量越少，也可以减小HDFS中的NameNode压力。（1）append

原创 2021-04-02 17:11:26 · 839 阅读 · 0 评论
HDFS入门和应用开发：实战微博HDFS案例（上）

一、背景微博有大量的用户数据，为了分析微博用户的行为。我们可以将微博的数据上传到HDFS，然后供其他大规模文本、情感分析程序来处理。二、HDFS目录规划当前我们的HDFS集群中应该是空空如也。因为我们并没有做任何的文件操作。为了方便我们将来管理文件系统，我们也对HDFS需要有一个目录规划，就像Linux一样。目录规划：目录说明 /source 用于存储原始采集数据 /common ..

原创 2021-04-02 16:59:21 · 1291 阅读 · 0 评论
自学大数据入门全套学习资料（视频+课程大纲+笔记）

目录：大数据课程导论分布式技术 Apache Hadoop概述 Hadoop集群搭建 Hadoop初体验 Hadoop HDFS基准测试学习目标理解大数据相关概念、特点、应用场景掌握大数据业务分析基本步骤掌握分布式、集群相关概念掌握Hadoop相关概念、Hadoop架构掌握Hadoop集群搭建掌握Hadoop各组件模块功能了解HDFS基准测试课程链接：大数据……Hadoop完整教程：http://yun.itheima.com/course/301.htm

原创 2021-04-02 16:38:14 · 1313 阅读 · 1 评论
HDFS入门和应用开发：HDFS简介、发展历史、设计目标以及应用场景

一、HDFS简介HDFS（Hadoop Distributed File System）是 Apache Hadoop 项目的一个子项目，它的设计初衷是为了能够支持高吞吐和超大文件读写操作 HDFS是一种能够在普通硬件上运行的分布式文件系统，它是高度容错的，适应于具有大数据集的应用程序，它非常适于存储大型数据 (比如 TB 和 PB) HDFS使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统。二、HDFS发展历史Doug Cutting 在做

原创 2021-04-01 14:29:04 · 1161 阅读 · 0 评论
HDFS入门和应用开发场景案例：如何模拟实现分布式存储？

如何解决海量数据存的下问题1.传统式存储方式应对文件存储服务，传统做法是在服务器上部署文件服务比如FTP。但是随着数据变多，会遇到存储瓶颈。此时，本能的操作反应是：内存不够加内存，磁盘不够加磁盘—单机纵向扩展。但是单机能够扩展的内存磁盘是有上限的，不能无限制下去。2.分布式存储方式纵向扩展有上限，自然想到横向扩展。所谓横向指的是采用多台机器存储，一台不够就多台一起存储，不够就加机器。理论上，可以横向无限制下去。因此海量数据如何存储的下的问题解决方式就是采用多台机器存储—即分布式存

原创 2021-04-01 14:22:00 · 438 阅读 · 0 评论
HDFS入门和应用开发：从核心底层原理认识存储系统

企业存储系统随着这两年产业互联网的推动和发展，越来越多的企业开始进行数字化转型，将传统的业务流程进行数字化改造。在进行数字化的过程中，需要数据来支撑企业的业务流程重塑，并以客户、产品为核心，以数据来支撑精细化运营。而数据分散在不同的系统中，要更充分的利用数据，需要将企业的大量数据集中存储，并进行业务化处理。此时，我们要想办法来解决大规模数据存储的问题。不管是使用哪种存储技术，都需要有存储硬件的支持。一、硬盘硬盘是计算机的主要存储硬件，可以用来存储大量数据。目前（2020年..

原创 2021-04-01 14:15:27 · 266 阅读 · 0 评论
大数据学习连载07篇：Hadoop环境搭建完成后的压力测试

实际生产环境当中，hadoop的环境搭建完成之后，第一件事情就是进行压力测试，测试Hadoop集群的读取和写入速度，测试网络带宽是否足够等一些基准测试。一、测试写入速度向HDFS文件系统中写入数据,10个文件,每个文件10MB,文件存放到/benchmarks/TestDFSIO中1.启动YARN集群 start-yarn.sh 2.启动写入基准测试 hadoop jar /export/server/hadoop-3.1.4/share/hadoop/ma.

原创 2021-03-31 14:42:32 · 419 阅读 · 0 评论
大数据学习连载06篇：Hadoop初体验之Hadoop安装包目录结构

一、使用HDFS1.从Linux本地上传一个文本文件到hdfs的/目录下#在/export/data/目录中创建a.txt文件，并写入数据cd /export/data/touch a.txtecho "hello" > a.txt #将a.txt上传到HDFS的根目录hadoop fs -put a.txt /2.通过页面查看通过NameNode页面.进入HDFS：http://node1.itcast.cn:9870/查看文件是否创建成功二、运...

原创 2021-03-31 14:38:59 · 508 阅读 · 0 评论
大数据学习连载05篇：Hadoop集群搭建，手把手带你安装配置以及访问

Hadoop集群搭建本文导读：2000+字数手把手带你学习集群部署方式以及环境搭建。从解压开始学习~刚入门Hadoop的小伙伴不要错过哦！一、集群简介HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。HDFS集群负责海量数据的存储，集群中的角色主要有：NameNode、DataNode、SecondaryNameNodeYARN集群负责海量数据运算时的资源调度，集群中的角色主要有：ResourceManager、NodeMan

原创 2021-03-30 15:20:05 · 359 阅读 · 0 评论
大数据学习连载04篇：Hadoop概述（发展史、国内外应用、版本、Hadoop 3.0新特性）

本篇文章过长，大概4000+字数，全文干货无废话。分别给大家介绍一下Hadoop生态圈，并且Hadoop在国内国外互联网公司的应用场景和负责业务。后面也会给大家介绍Hadoop的各个发行版本和介绍。以及3.0版本的新特性是什么。附目录，望收藏随时观看。一、Hadoop概述1.Hadoop介绍Hadoop是Apache旗下的一个用java语言实现开源软件框架，是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。狭义上说，Hadoop.

原创 2021-03-30 14:27:07 · 2227 阅读 · 0 评论
大数据学习连载03篇：分布式技术（集群、负载、弹性、故障等知识点）

分布式技术一、为什么需要分布式（1）计算问题无论是我们在学校刚开始学编程，还是在刚参加工作开始处理实际问题，写出来的程序都是很简单的。因为面对的问题很简单。以处理数据为例，可能只是把一个几十K的文件解析下，然后生成一个词频分析的报告。很简单的程序，十几行甚至几行就搞定了。直到有一天，给你扔过来1000个文件，有些还特别大，好几百M了。你用之前的程序一跑，发现跑的时间有点长。于是想要去优化下。1000 个文件，互相还没业务联系，用多线程呀，一个线程处理一个文件，结果再汇总就搞定了。如果多线程效

原创 2021-03-29 13:48:59 · 1075 阅读 · 0 评论
大数据学习连载02篇：业务分析步骤、数据的收集、整理、展现以及工作报告

大数据业务分析基本步骤典型的大数据分析包含以下几个步骤：（1）明确分析目的和思路明确数据分析目的以及确定分析思路，是确保数据分析过程有效进行的先决条件，它可以为数据的收集、处理及分析提供清晰的指引方向。目的是整个分析流程的起点。目的不明确则会导致方向性的错误。即思考:为什么要开展数据分析，通过这次数据分析要解决什么问题？当明确目的后，就要校理分析思路，并搭建分析框架，把分析目的分解成若干个不同的分析要点，即如何具体开展数据分析，需要从哪几个角度进行分析，采用哪些分析指标。只有明确了分

原创 2021-03-29 13:40:38 · 2003 阅读 · 0 评论
大数据学习开篇：了解大数据导论、清楚大数据应用领域和前景

一、大数据导论1.大数据概念（1）大数据概念最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，大数据是当前很热的一个词。这几年来，云计算、继而大数据，成了整个社会的热点，大数据究竟是什么东西?有哪些相关技术?对普通人的生活会有怎样的影响?我们来一步步弄清这些问题。CCTV9-大数据时代中国首部大数据产业题材纪录片——《大数据时代》于7月1日20:04分在央视9套纪录频道首播，该片由中央广播电视总台与工业和信息化部联合出品、工业和信息化部信息化和软件服务业司指导、央视纪录频道和国家

原创 2021-03-29 12:52:12 · 2600 阅读 · 0 评论