大数据从入门到精通(超详细版)
文章平均质量分 95
从外层理论,到底层原理 , 再到实战应用 , 由浅入深,全面讲述大数据体系的知识 , 为大家带来更好的学习体验 。
木 木 水.
变化不会带来进化, 但是进化都是从变化开始的 , 变成光吧!!!
展开
-
大数据从入门到精通(超详细版)之BI工具的安装
FineBI的介绍:https://www.finebi.com/FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是定位于自助大数据分析的 BI 工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。原创 2023-09-21 19:30:10 · 450 阅读 · 2 评论 -
大数据从入门到精通(超详细版)之Hive案例,指标统计, Sql语句的编写
嗨,各位小伙伴,恭喜大家学习到这里,不知道关于大数据前面的知识遗忘程度怎么样了,又或者是对大数据后面的知识是否感兴趣,本文是以下就是完整的学习路径哦。推荐大家认真学习哦!!!上一篇文章中,我们学习了Hive实战的数据清洗策略,我们这些来学习指标统计。原创 2023-09-17 14:37:32 · 538 阅读 · 1 评论 -
大数据从入门到精通(超详细版)之Hive的案例实战,ETL数据清洗!!!
前面我们已经学习完了Hive的各自基本操作与基础知识,本文主要介绍Hive的实战篇章,主要关于真实环境下会遇到的各种问题,其中主要是Hive的数据清洗工作。原创 2023-09-15 21:50:41 · 1141 阅读 · 3 评论 -
大数据从入门到精通(超详细版)之Hive的函数,超级详细,可当做字典使用哦!!!
上一篇文章我们主要讲了Hive的虚拟列的使用与数据抽样操作,接下来的文章我们将讲解Hive的函数使用。重点帮助大家学习函数的分类与常见的函数及其实际的操作用法。原创 2023-09-14 20:59:52 · 268 阅读 · 1 评论 -
大数据从入门到精通(超详细版)之Hive的抽样查询与虚拟列,你没见过的Hive玩法!
Hive的虚拟列(Virtual Columns)是一种特殊类型的列,它们不是存储在表中的实际列,而是根据表的其他列及其元数据计算得出的。虚拟列可以用于提供对表数据的额外元信息或在查询中进行运算和转换。:这是一个隐含的虚拟列,它代表当前处理的输入文件的名称。它可以在查询中使用,以了解数据来自哪个文件或文件路径。:这是另一个隐含的虚拟列,它表示当前行在其所在文件中的字节偏移量。它通常与INPUT__FILE__NAME一起使用,以获得更详细的位置信息。ROW__ID:这是虚拟列,它提供每一行的唯一标识符。原创 2023-09-13 19:56:00 · 364 阅读 · 2 评论 -
大数据从入门到精通(超详细版)之Hive的DQL操作,学不会算我输!!!
本篇文章将讲述Hive的DQL操作,包括Hive的基础查询语句,`group by`操作和`join`操作,同时也讲述了Hive的高阶查询语句,包括`RLIKE`正则匹配操作和`UNION`联合查询操作。原创 2023-09-12 20:49:11 · 225 阅读 · 1 评论 -
大数据从入门到精通(超详细版)之Hive的分桶表,轻松学习Hive的高阶知识!!!
前面我们学习了Hive的分区表操作,了解了Hive当中的数据可以按照分区列进行划分,但是Hive的高阶用法还不止一个,我们接下来学习Hive的分桶表,也是Hive当中最为重要的部分之一,大家认真学习吧!原创 2023-09-11 20:41:42 · 206 阅读 · 1 评论 -
大数据从入门到精通(超详细版)之Hive的分区表,带你理解Hive当中的高阶玩法!!!
在Hive中,分区表(Partitioned table)是一种数据组织和管理方式,它将数据按照一个或多个列的值进行逻辑上的分区。每个分区都被存储在独立的目录或文件中,从而使得数据可以更加高效地被查询和处理。数据组织结构清晰:通过按照特定列的值对数据进行分区,可以将数据组织成更加灵活和易于理解的结构。例如,可以按照日期、国家、地区等进行分区,使得数据在逻辑上具有更清晰的层次性。提高查询性能:由于数据被分散存储在不同的目录或文件中,当查询时只需扫描特定的分区,而不需要扫描整张表,从而大大提高了查询性能。原创 2023-09-10 17:18:38 · 384 阅读 · 2 评论 -
大数据从入门到精通(超详细版)之Hive的DML操作,通俗易懂,包看包会!!!
上一篇文章我们已经学习了Hive的DDL操作,了解到了Hive的建表语句与实际操作,接下来我们学习得深入一点,我们来学习Hive的DML操作,学习如何操作Hive当中的数据。原创 2023-09-09 18:51:02 · 299 阅读 · 3 评论 -
大数据从入门到精通(超详细版)之HDFS的操作,点开之前没想到这么简单 !!!
前面我们已经安装完了HDFS,相信大家已经对HDFS的理解已经更加深入了,来到本篇文章,我们将学习HDFS的操作,在实战当中学会如何应用HDFS。原创 2023-09-07 20:20:57 · 273 阅读 · 2 评论 -
大数据从入门到精通(超详细版)之HDFS安装部署 , 跟着部署 , 真的有手就行 !
前面我们已经介绍了HDFS的入门知识与原理,对HDFS的使用场景已经有了一个初步的认识,现在我们开始动手实操HDFS的安装吧,HDFS安装好了,对后续学习大数据的其他组件也起到一个铺垫作用。原创 2023-09-06 21:18:47 · 1188 阅读 · 2 评论 -
大数据从入门到精通(超详细版)之Yarn的使用,安装与部署
Yarn是什么Hadoop YARN(Yet Another Resource Negotiator)是 Hadoop 生态系统中的一个核心组件,用于集群资源的管理和任务调度。通过 YARN,Hadoop 可以不仅仅局限于 MapReduce,还可以支持更多计算模型和框架,提供更加灵活和高效的大规模数据处理能力。原创 2023-08-30 22:17:53 · 1183 阅读 · 2 评论 -
大数据从入门到精通(超详细版)之Hive的简介与安装部署
Hive是由FaceBook开源,基于Hadoop的一个数据仓库工具, 可以将结构化的数据文件映射成一张表, 并且提供类SQL的查询功能.原创 2023-08-31 20:02:43 · 180 阅读 · 1 评论 -
大数据从入门到精通(超详细版)之HiveServer2的使用
bin/hive, 就是Hive Shell的客户端 , 直接写SQL此时后台执行脚本 :, 启动的是元数据管理服务, 启动的是hiveserver2服务所以 , HiveServer2其实就是Hive内置的一个ThriftServer服务 , 提供Thrift端口供其他客户端连接Hive内置的beeline客户端工具(命令行形式)第三方的图形化工具 , 如DataGrip这些下面就是它们之间的关系.话不多说, 我们开始实际操作。原创 2023-09-01 21:50:35 · 614 阅读 · 2 评论 -
大数据从入门到精通(超详细版)之 Hive的配置与基本语法
之前的文章里面我们学习了Hive的入门认识 , 安装部署 , 以及hive shell 和 hiveServer2的使用.接下来我们来深入学习Hive的详细知识.首先进行一个知识回顾与巩固Hive的简介与安装部署Hive从入门到精通 : (1) Hive的HiveServer2的使用Hive 是一个基于 Hadoop 的数据仓库基础架构,它提供了类似于 SQL 的查询语言用于分析和处理大规模的结构化数据。Hive 的设计目标是使非技术人员能够轻松地使用 SQL 进行数据分析,而无需编写复杂的 MapRedu原创 2023-09-02 17:38:05 · 389 阅读 · 1 评论 -
大数据从入门到精通(超详细版)之Hive的DDL操作
这篇文章将深入探讨Hive的建表方法,包括内部表和外部表之间的区别。它将提供创建内部表和外部表的详细步骤,并解释这两种表之间的区别。此外,文章还将演示如何将内部表和外部表进行转换。除此之外,文章还将介绍SERDE和复杂数据类型,解释它们的概念以及如何在Hive中使用它们。还将提供复杂数据类型的取值方法。另外,文章将介绍使用CTAS方式建表和CTL建表的方法。还将详细介绍如何对表进行各种操作,如查询、展示、修改、删除和清空。总之,这篇文章将为读者提供Hive建表、操作表的全面指南,帮助读者更好地理原创 2023-09-03 16:17:35 · 399 阅读 · 1 评论 -
大数据从入门到精通(超详细版)之Hadoop详解
俗话说得好, "万事开头难 " ,学习这件事情也是一样的。所有的开始都是痛苦的 ,不止痛苦 ,而且枯燥 ,但是敢问能一直很舒服的提升自己呢 ,想要突破自我,必然需要经历一个从0到1的过程 ,送自己和大家一句话 :“长风破浪会有时,直挂云帆济沧海”为了解答这个问题,我们需要首先搞懂,什么是数据?官方的解释是这样的:数据是对客观事物的逻辑归纳,是未经加工的原始素材。数据可以是连续的值,如声音、图像,这被称为模拟数据。数据也可以是离散的,如符号、文字,这被称为数字数据。原创 2023-09-04 22:17:51 · 739 阅读 · 2 评论 -
大数据从入门到精通(超详细版)之HDFS详解,学不会算我输!!!
HDFS是Hadoop 的分布式文件系统,用于存储大规模数据集并在 Hadoop 集群中进行分布式处理。这里怎么理解呢?就类似于这种关系,所有用户,系统等等都会产生数据,这些数据会存储在哪里呢,就存储在HDFS当中,HDFS作为Hadoop集群框架当中存储数据的空间,Hive讲HDFS当中的数据转为可分析的结构化数据,Yarn负责对这些数据的任何操作,这三大组件各司其职,完成了整个Hadoop框架的运行,完成了大数据相关的业务流程HDFS 的设计目标是在廉价的硬件上提供高容错性、高吞吐量的数据存储和处理能原创 2023-09-05 21:24:44 · 763 阅读 · 3 评论 -
大数据从入门到精通文章体系
大数据知识可谓是多而杂,大数据相关的组件更是数不胜数,但是我们每一次的感受到学习的累,就足以证明我们在认真的学习,每感到到一次累的同时,就应该感受到一次进步,所以不要让自己停下来。各位小伙伴冲冲冲!!!原创 2023-09-04 21:52:57 · 619 阅读 · 3 评论