![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 84
at小白在线中
这个作者很懒,什么都没留下…
展开
-
大数据培训:构建Flink SQL流式计算平台
一、背景Flink 由于阿里在国内的助推,火爆程度可以想象,大数据培训且目前Flink 有非常明显的趋势是往SQL 方向进行的。很多大厂已经实现了Flink SQL化,那我们怎么去实现一个流式计算平台呢?二、Flink SQL 初探以及代码实现连接kafka 对数据进行处理写入mysqlpackage org.example;import org.apache.flink.streaming.api.environment.StreamExecutionEnvironm.转载 2022-02-21 10:32:35 · 593 阅读 · 1 评论 -
大数据培训:Flink 快照分析
在 Flink 作业中,无论是 SQL 还是 JAR 模式,常常会直接或者间接地使用到状态(State)。当 Flink 进行快照时,用户定义的这些状态数据可以被保存在状态点中,以供后续的崩溃恢复。Flink 的状态分为 Operator State 和 Keyed State,而 Keyed State 又可以分为 ValueState、MapState、ListState、AggregatingState、MergingState、ReducingState 等多种类型。此外,这些林林总总的状态又有转载 2022-02-18 11:42:51 · 476 阅读 · 0 评论 -
大数据培训:Flink窗口的开始时间的计算
我还记得的在我刚学习flink的时候,B站的老师说过,Flink窗口的开始时间和结束时间和你想的不一样。那个时候我好像记得老师说过,flink的窗口大小会根据你的时间单位来进行修正。然后在现如今,很多人还是不是很了解窗口机制,以及watermark。更别提什么窗口什么时候,什么时候结束。所以呢,今天从大数据培训源码角度给大家普及一下窗口什么时候开始,什么时候结束。我们可以来编写一个简单的代码,来看一下效果,我习惯用java来写flink,所以也就使用java了。@Overridepublic转载 2022-02-17 10:11:00 · 576 阅读 · 0 评论 -
大数据培训:Flink全链路延迟的测量方式及原理
一、背景Flink Job端到端延迟是一个重要的指标,用来衡量Flink任务的整体性能和响应延迟(大部分流式应用,要求低延迟特性)。通过流处理引擎竞品对比,我们发现大部分流计算引擎产品,都在告警监控页面,集成了全链路时延指标展示(直方图)。一些低延时的处理场景,例如用于登陆、用户下单规则检测,实时预测场景,需要一个可度量的Metric指标,来实时观测、监控集群全链路时延情况。二、源码分析来源1、本文的源码分析基于Flink社区issue FLINK-3660,以及issue对应的pr源码转载 2022-02-16 10:55:18 · 632 阅读 · 0 评论 -
大数据培训:在 flink 中使用 hive udf的原因分析
1.序篇废话不多说,咱们先直接上本文的目录和结论,小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助:背景及应用场景介绍:博主期望你能了解到,其实很多场景下实时数仓的建设都是随着离线数仓而建设的(相同的逻辑在实时数仓中重新实现一遍),因此能够在 flink sql 中复用 hive udf 是能够大大提高人效的。 flink 扩展支持 hive 内置 udf:flink sql 提供了扩展 udf 的能力,即 module,并且 flink sql 也内置了 HiveModule(需要转载 2022-02-15 11:00:13 · 500 阅读 · 2 评论 -
大数据培训:Flink调度器性能的提高
分发模式描述了消费者任务如何连接到生产者任务。目前,Flink 中有两种分布模式:pointwise 和 all-to-all。当分布模式在两个顶点之间是逐点分布时,遍历所有边的计算复杂度为 O(n)。当分布模式为 all-to-all 时,遍历所有边的复杂度为 O(n 2 ),这意味着随着规模的增加,复杂度会迅速增加。在 Flink 1.12 中,ExecutionEdge类用于存储任务之间的连接信息。这意味着对于 all-to-all 分布模式,会有 O(n 2 ) Execution.转载 2022-02-14 11:48:03 · 201 阅读 · 0 评论 -
大数据培训:Hadoop HDFS 实现原理
一、HDFS体系结构1.1 HDFS 简介Hadoop分布式文件系统 (HDFS) 是运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,大数据培训机构非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件转载 2022-02-11 11:45:43 · 279 阅读 · 0 评论 -
大数据培训:Hadoop生态系统圈
Hadoop概述Hadoop体系也是一个计算框架,在这个框架下,可以使用一种简单的编程模式,通过多台计算机构成的集群,分布式处理大数据集。Hadoop是可扩展的,它可以方便地从单一服务器扩展到数千台服务器,每台服务器进行本地计算和存储。大数据培训机构除了依赖于硬件交付的高可用性,软件库本身也提供数据保护,并可以在应用层做失败处理,从而在计算机集群的顶层提供高可用服务。Hadoop核心生态圈组件如图所示。Hadoop生态圈Hadoop包括以下4个基本模块。1)Hadoop基础功能.转载 2022-02-10 11:59:35 · 411 阅读 · 0 评论 -
大数据培训:SQL 面试题及答案分享
一、行列转换描述:表中记录了各年份各部门的平均绩效考核成绩。表名:t1表结构:a -- 年份b -- 部门c -- 绩效得分表内容:a b c2014 B 92015 A 82014 A 102015 B 7问题一:多行转多列问题描述:将上述表内容转为如下输出结果所示:a col_A col_B2014 10 92015 8 7参考答案:selecta,max(case when b="A" then c en.转载 2022-02-09 10:39:44 · 387 阅读 · 0 评论 -
大数据开发之运维面试题汇总分享
Q1:集群线上扩容如何达到自动化?线上扩容,规模正常都是以 10+以上,如果都以课堂所示,人肉操作,时间投入与产出比不匹配,人力造成很大的不必要浪费,想学习老师线上集群实际扩容的方案。A:课堂所示兼顾了小白同学,所以是手把手纯人肉搭建,产线环境扩容数量少则几十多则上百,人肉肯定不行,我们公司的运维分为 IAAS 运维、大数据运维、应用运维,大数据运维工程师在扩容集群时,需要向 IAAS 运维工程师以工单的方式申请服务器并提出自己的需求, IAAS 运维工程师在提供服务器时不管是新采购服务器大数据培训还是转载 2022-02-08 11:56:45 · 1395 阅读 · 0 评论 -
大数据开发之Flink + TiDB
一、实时数仓经典架构实时数仓有三个著名的分水岭:第一个分水岭是从无到有,Storm 的出现打破了 MapReduce 的单一计算方式,让业务能够处理 T+0 的数据。第二个分水岭是从有到全,Lambda 与 Kappa 架构的出现,使离线数仓向实时数仓迈进了一步,而 Lambda 架构到 Kappa 架构的演进,实现了离线数仓模型和实时数仓模型的紧密结合。第三个分水岭是从繁到简,Flink 技术栈的落地大数据培训使实时数仓架构变得精简,并且是现在公认的流批一体最佳解决方案。.转载 2022-01-21 13:33:05 · 469 阅读 · 0 评论 -
大数据开发之Flink sql 的基础用法
Flink sql 是什么sql 的诞生就是为了简化我们对数据开发,可以使用少量的 sql 代码,帮助我完成对数据的查询,分析等功能声明式 & 易于理解对于用户只需要表达我想要什么,具体处理逻辑交给框架,系统处理,用户无需关心,对于一些非专业的开发人员有了解 sql,并且 sql 相对我们学习 java,c 等语言更简单,大数据培训学习成本更低,如果跨团队,或者非大数据开发人员,也可以通过 sql 来进行 flink 任务的开发自动调优查询优化器,会对我们编写的 s.转载 2022-01-20 11:23:00 · 4450 阅读 · 0 评论 -
大数据开发之Flink SQL建设实时数仓实践
个推Flink SQL使用现状在SQL模式下,个推通过jar+SQL文件+配置参数的方式使用Flink。其中jar是基于Flink封装的执行SQL文件的执行jar,提交命令示例如下:/opt/flink/bin/flink run -m yarn-cluster -ynm KafkaSourceHbaseSinkCaseTestSql \-c ${mainClassName} \${jarPath} \--flink.parallelism 40 \--mode stream \--sq转载 2022-01-19 11:59:13 · 729 阅读 · 1 评论 -
大数据开发之通过 Spark 来扩展 Presto
概述Presto 最初设计是对数据仓库中的数据运行交互式查询,但现在它已经发展成为一个位于开放数据湖分析之上的统一 SQL 引擎,用于交互式和批处理工作负载,数据湖上的流行工作负载包括:•报告和仪表盘:这包括为内部和外部开发人员提供自定义报告以获取业务洞察力,以及许多使用 Presto 进行交互式 A/B 测试分析的组织。这个用例的典型特征是要求低延迟。它在非常高的 QPS 下需要数十到数百毫秒,毫不奇怪,这个场景几乎完全使用 Presto,而这正是 Presto 的设计目的。•使用 SQL not转载 2022-01-18 11:29:15 · 598 阅读 · 0 评论 -
Flink,Spark,Storm,Hadoop框架比较
引言大数据分析作为一种用于分析大量按需数据的工具,越来越受到人们的欢迎。四个最常见的大数据处理框架包括Apache Hadoop,Apache Spark,Apache Storm和Apache Flink。虽然这四个都支持大数据处理,但是这些框架的用法和支持该用法的基础体系结构不同。大数据培训许多研究已经投入了时间和精力来通过评估已定义的关键绩效指标(KPI)来比较这些大数据框架。本文通过确定一组通用的关键性能指标来总结这些早期工作,这些关键性能指标包括处理时间,CPU消耗,延迟,吞吐量,执行转载 2022-01-17 10:39:38 · 1350 阅读 · 0 评论 -
大数据开发之Hadoop高频面试题
Hadoophadoop中常问的就三块,第一:分布式存储(HDFS);第二:分布式计算框架(MapReduce);第三:资源调度框架(YARN)。1. 请说下HDFS读写流程这个问题虽然见过无数次,面试官问过无数次,还是有不少面试者不能完整的说出来,所以请务必记住。并且很多问题都是从HDFS读写流程中引申出来的。HDFS写流程:Client客户端发送上传请求,通过RPC与NameNode建立通信,NameNode检查该用户是否有上传权限,以及上传的文件是否在HDFS对应的目.转载 2022-01-14 12:00:03 · 138 阅读 · 0 评论 -
大数据开发之离线分析工具Hive
Hive是Facebook为了解决海量日志数据的分析而开发的,后来开源给了Apache软件基金会,可见Apache软件基金会是个神奇的组织,大数据培训我们之前学过的很多开源工具都有Apache软件基金会的身影。官网定义:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.转载 2022-01-13 11:17:25 · 629 阅读 · 0 评论 -
大数据开发之Spark SQL 的 Catalyst介绍
一、SQL解析细节(通用)Parse:SQL语句解析生成ASTBind:元数据绑定Optimize:优化执行策略Execute:执行二、Catalyst概念SQL优化器核心执行策略主要分为两个大的方向:基于规则优化(RBO)以及基于代价优化(CBO),基于规则优化是一种经验式、启发式的优化思路,更大数据培训多地依靠前辈总结出来的优化规则,简单易行且能够覆盖到大部分优化逻辑,但是对于核心优化算子Join却显得有点力不从心一个简单的例子,两个表执行Join到底应该使用Broadcas转载 2022-01-12 11:41:25 · 138 阅读 · 0 评论 -
大数据开发之SparkSQL面试篇
1.谈谈你对Spark SQL的理解Spark SQL是一个用来处理结构化数据的Spark组件,前身是shark,但是shark过多的依赖于hive如采用hive的语法解析器、查询优化器等,制约了Spark各个组件之间的相互集成,因此Spark SQL应运而生大数据培训。Spark SQL在汲取了shark诸多优势如内存列存储、兼容hive等基础上,做了重新的构造,因此也摆脱了对hive的依赖,但同时兼容hive。除了采取内存列存储优化性能,还引入了字节码生成技术、CBO和RBO对查询等进行动态评估转载 2022-01-11 14:24:38 · 1339 阅读 · 0 评论 -
大数据开发之Hive表数据同步至HBase
1. 背景当我们需要从 Hive 或其他异构存储中往 HBase 里导入大批量数据的时候,走 HBase 原生 API 这种方式一定不是最合适的方案,一是数据同步的效率会比较低,大数据培训其次是数据的持续写入会导致集群频繁进行 flush,compaction 等操作,占用较多的系统资源,影响线上服务的正常读写,因此,为了应对海量数据导入的场景,bulkload 应运而生。2. bulkload 介绍以及 HFile 生成的若干种方式bulkload 的大致流程是,我们事先用程序把需要导入的数据转载 2022-01-10 13:05:39 · 1565 阅读 · 1 评论 -
大数据开发之Hive调优技巧
1.多次INSERT单次扫描表默认情况下,Hive会执行多次表扫描。因此,如果要在某张hive表中执行多个操作,建议使用一次扫描并使用该扫描来执行多个操作。比如将一张表的数据多次查询出来装载到另外一张表中。如下面的示例,表my_table是一个分区表,分区字段为dt,如大数据培训果需要在表中查询2个特定的分区日期数据,并将记录装载到2个不同的表中。INSERT INTO temp_table_20201115 SELECT * FROM my_table WHERE dt ='2020-11-转载 2022-01-07 11:39:32 · 216 阅读 · 0 评论 -
大数据开发之Spark Shuffle 原理分析
Shuffle的产生在Spark作业中当父RDD与子RDD的分区对应关系为多对多或者一对多的情况下会发生宽依赖,也即一个父RDD的分区需要分发到多个子RDD所在的任务中大数据培训去执行,这种情况就会涉及数据的重新分布,也即产生了shuffle。Spark算子是否引入shuffle与各算子的具体实现有关,本质上是要看父子RDD的分区器的实现是否相同,例如:在执行聚合类算子reduceByKey时判断是否会引入shuffle,需要分析父子rdd的分区器partitioner是否一致,如果不一致则创建一个转载 2022-01-06 12:00:49 · 500 阅读 · 0 评论 -
尚硅谷Docker与微服务实战教程发布
一个调皮的小伙问我:好久不见阳哥,他在闭关练宝典神功?小样的,Cosplay pig eat tiger!来尚硅谷,让阳哥唱歌给你听:小燕子,穿花衣,我问燕子你为啥来?燕子说,管好你自己。阳哥一生气,把你做成甜面酱,蘸着Beijing gagaga吃了。生活如此美好,世界如此奇妙,珍惜生命,不要调侃阳哥。阳哥有多狠,说出来你不敢信。想当年,阳哥晚上堵住了阳嫂:我看你有几分姿色,我心动了,你自己想办法爱上我。十四亿人里,只相中了你,希望你原创 2022-01-06 10:20:29 · 712 阅读 · 0 评论 -
大数据培训:hadoop中shuffle过程面试题
Shuffle阶段是指从Map的输出开始,包括系统执行排序以及传送Map输出到Reduce作为输入的过程。Sort阶段是指对Map端输出的Key进行排序的过程。大数据培训不同的Map可能输出相同的Key,相同的Key必须发送到同一个Reduce端处理。Shuffle阶段可以分为Map端的Shuffle和Reduce端的Shuffle。一、Map端的shuffle Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS。每个Map的输出会先写到内存缓冲区中,.转载 2022-01-05 11:35:53 · 270 阅读 · 0 评论 -
大数据开发之Hive SQL的优化分享
hive的优化主要分为:配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。优化的核心思想是:减少数据量(例如分区、列剪裁); 避免数据倾斜(例如加参数、Key打散); 避免全表扫描(例如on添加加上分区等); 减少job数(例如相同的on条件的join放在一起作为一个任务)。HQL语句优化1、使用分区剪裁、列剪裁在分区剪裁中,当使用外关联时,如大数据培训果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤。.转载 2022-01-04 11:12:51 · 144 阅读 · 0 评论 -
大数据开发之Hive如何提高查询效率
今天分享一下Hive如何提升查询效率。Hive作为最大数据培训常用的数仓计算引擎,是我们必备的技能,但是很多人只是会写Hql,并不会优化,也不知道如何提升查询效率,今天分享8条军规:1、开启FetchTask一个简单的查询语句,是指一个没有函数、排序等功能的语句,当开启一个Fetch Task功能,就执行一个简单的查询语句不会生成MapRreduce作业,而是直接使用FetchTask,从hdfs文件系统中进行查询输出数据,从而提高效率。设置的方式:Hive.fetch.task.c转载 2021-12-31 12:54:55 · 1402 阅读 · 0 评论 -
尚硅谷大数据之Canal视频教程发布
他来了,他又带着礼物走来了。他眼神中有着梁朝伟同款的忧郁,稀疏的胡茬一看就是有故事的人,潇洒美少年,皎如玉树临风前。他就是生产队里的劳模:汪公子。看看汪公子这一年都干了些什么:Flume新版视频教程 Hadoop3.x高可用集群视频教程 Flink CDC视频教程 Flink实时数仓视频教程 Hive源码解析及优化视频教程How old are you,怎么老是你?学大数据的小伙伴们,你们掉的每一根头发,都被刻上了字:汪公子到此一游。发如不系之舟,渐转载 2021-12-30 12:02:29 · 146 阅读 · 0 评论 -
【转】大数据开发之Spark面试八股文
1. Spark 的运行流程?具体运行流程如下:SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 资源管理器分配 Executor,然后资源管理器启动 Executor Executor 发送心跳至资源管理器 SparkContext 构建 DAG 有向无环图 将 DAG 分解成 Stage(TaskSet) 把 Stage 发送给 TaskScheduler Executor 向 SparkContext 申请 Task TaskSched.转载 2021-12-30 11:41:09 · 1971 阅读 · 0 评论 -
大数据开发之Spark SQL及基础引擎知识分享
Spark SQL作为Spark计算查询的重要支撑,在Spark生态当中的重要性是不言而喻的。Spark SQL使得一般的开发人员或者非专业的开发人员,也能快速完成相应的计算查询需求,大数据培训这也是其存在的重要意义。今天的大数据开发学习分享,我们就来讲讲Spark SQL及基础引擎。在编程级别上,Spark SQL允许开发人员对具有模式的结构化数据发出与ANSI SQL:2003兼容的查询。自从在Spark1.3中引入以来,Spark SQL已经发展成为一个强大的引擎,在此基础上建立了许多高级的结构化转载 2021-12-29 13:55:56 · 216 阅读 · 0 评论 -
大数据开发Hive之如何进行数据抽样
在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,大数据培训因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示:1. 数据块抽样(tablesample()函数)1) tablesample(n percent) 根据hive表数据的大小按比例抽取数据,并保存到新的hive表中。如:抽取原hive表中10%的数据转载 2021-12-28 11:01:05 · 223 阅读 · 0 评论 -
大数据开发之Hive SQL内置函数
前言Hive内部提供了很多函数给开发者使用,包括数学函数,集合函数,大数据培训类型转换函数,日期函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。Hive的内置函数一、数学函数1、 取整函数: round语法: round(double a)返回值: BIGINT说明:返回double类型的整数值部分(遵循四舍五入)举例:hive> select round(3.1415926);32、指定精度取整函数: round.转载 2021-12-27 13:52:22 · 1650 阅读 · 0 评论 -
大数据开发之sparkSQL的使用分享
SparkSQL,使用SQL来完成大数据操作Spark之前使用RDD操作大数据,非常方便,但是也有各种问题,例如RDD每次读取的都是字符串,以及语法比较比较麻烦。大数据培训针对这种情况,spark在新版本中升级RDD为DataFrame和DataSet,并使用SQL的方式去操作数据DataFrame,RDD的升级版,分布式的数据集,并且以列的方式组合的,类似于二维表格式,除数据外保存数据结构信息DataSet,DataFrame扩展,最新的数据抽象,相对于DataFrame,DataSet会转载 2021-12-24 11:35:44 · 223 阅读 · 0 评论 -
大数据开发 Spark 模块之SparkSQL
在实际的开发过程中,SQL化已经是数据领域的共识,大家疯狂的将大数据框架的易用性做到了最高,即使一个刚刚毕业的同学,只要有SQL基础就可以看懂甚至上手开发了。那么我们有必要对SparkSQL这个模块进行一个全面的解析。SparkSQL的前世今生Spark SQL的前身是Shark,它发布时Hive可以说是SQL on Hadoop的唯一选择(Hive负责将SQL编译成可扩展的MapReduce作业),鉴大数据培训于Hive的性能以及与Spark的兼容,Shark由此而生。Shark即Hive o转载 2021-12-23 11:35:41 · 286 阅读 · 0 评论 -
大数据开发之Hbase面试题
1. Hbase是怎么写数据的?Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 触发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除 -> 当StoreFiles Compact后,逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值后(默认10G),触发Split操作,把当前Region转载 2021-12-22 11:43:19 · 78 阅读 · 0 评论 -
(转)大数据开发之Hive中UDTF函数
动作日志解析思路:动作日志表中每行数据对应用户的一个动作记录,一个动作记录应当包含公共信息、页面信息以及动作信息。先将包含action字段的大数据培训日志过滤出来,然后通过UDTF函数,将action数组“炸开”(类似于explode函数的效果),然后使用get_json_object函数解析每个字段。真实情况下,一条日志是存在多个动作的. 和下面这条日志很类似:{"common":{"ar":"110000","ba":"Xiaomi","ch":"oppo","md":"Xiaomi转载 2021-12-21 11:55:47 · 468 阅读 · 0 评论 -
大数据开发hadoop之yarn基础架构详解
yarn 概述Apache Yarn(Yet Another Resource Negotiator的缩写)是 hadoop 集群资源管理器系统,Yarn 从 hadoop 2 引入,最初是为了改善 MapReduce 的实现,但大数据培训是它具有通用性,同样执行其他分布式计算模式。在 MapReduce1 中,具有如下局限性:扩展性差:jobtracker 兼顾资源管理和作业控制跟踪功能跟踪任务,启动失败或迟缓的任务,记录任务的执行状态,维护计数器),压力大,成为系统的瓶颈 可靠性差:采用了转载 2021-12-20 11:48:26 · 157 阅读 · 0 评论 -
Linux学习分享之标准大页和透明大页
Huge pages ( 标准大页 ) 和 Transparent Huge pages( 透明大页 )在 Linux 中大页分为两种:Huge pages ( 标准大页 ) 和 Transparent Huge pages( 透明大页 ) 。内存是以块即页的方式进行管理的,当前大大数据培训部分系统默认的页大小为 4096 bytes 即 4K。1MB 内存等于 256 页;1GB 内存等于 256000 页。CPU 拥有内置的内存管理单元,包含这些页面的列表,每个页面通过页表条目引用。当内存越转载 2021-12-17 12:11:54 · 187 阅读 · 0 评论 -
大数据之面试篇之Hadoop/HDFS/Yarn
MapReduce篇Hadoop解决大规模数据分布式计算的方案是MapReduce。MapReduce既是一个编程模型,又是一个计算框架。也就是说,开发人员必须基于MapReduce编程模型进大数据培训行编程开发,然后将程序通过MapReduce计算框架分发到Hadoop集群中运行。我们先看一下作为编程模型的MapReduce。说说MapReduce编程模型MapReduce是一种非常简单又非常强大的编程模型。简单在于其编程模型只包含map和reduce两个过程,map的主要输入是一对<转载 2021-12-16 11:15:30 · 182 阅读 · 0 评论 -
大数据开发之常用命令大全
Linux(vi/vim)一般模式编辑模式指令模式压缩和解压gzip/gunzip 压缩(1)只能压缩文件不能压缩目录(2)不保留原来的文件gzip压缩:gzip hello.txtgunzip解压缩文件:gunzip hello.txt.gzzip/unzip 压缩可以压缩目录且保留源文件zip压缩(压缩 1.txt 和2.txt,压缩后的名称为mypackage.zip):zip hello.zip hello.t...转载 2021-12-15 13:09:48 · 271 阅读 · 0 评论 -
大数据开发之数仓工具Hive(一)
Hive产生的背景Hive的产生是基于mr计算框架的,简单的说就是mr学习过于复杂,成本过高,所以hive的初心是对mr做一层包装,让大家能利于sql的优势来处理数据。直接使用MapReduce处理大数据,将面临以下问题:1:MapReduce 开发难度大,学习成本高(wordCount => Hello World)2:Hdfs文件没有字段名、没有数据类型,不方便进行数据的有效管理3:使用MapReduce框架开发,项目周期长,成本高Hive是基于Hadoop的一个数据仓库工转载 2021-12-14 11:47:28 · 462 阅读 · 0 评论