大数据技术入门
文章平均质量分 94
大数据分布式集群搭建及数据分析,目前还在更新中。
_雕尔塔_
以梦为码,一名从事人工智能和汽车智能座舱的工程师。欢迎各位留言,咱们互相交流学习!
展开
-
大数据技术入门-01-安装Centos
此文章主要讲述了如何安装Centos虚拟机。原创 2023-06-25 19:31:36 · 200 阅读 · 2 评论 -
大数据技术入门-02-hadoop的环境搭建
本博客系列文章是针对大数据技术入门的教程,重点介绍了在CentOS上安装Hadoop的过程。文章从模板虚拟机的环境准备开始,包括固定IP地址、远程连接虚拟机、安装必要的软件等。接着介绍了如何克隆虚拟机以及修改主机名和IP地址。最后,详细说明了在hadoop102节点上安装JDK和Hadoop的步骤,并提供了环境变量的配置方法。本系列文章适合对大数据技术感兴趣的学习者参考,作者也欢迎读者提出宝贵意见和建议。下一篇文章将介绍如何将Hadoop环境分发到其他节点。如果您对大数据技术入门感兴趣,请关注并收藏本博客。原创 2023-06-25 20:29:13 · 346 阅读 · 1 评论 -
大数据技术入门-03-hadoop的运行模式
本系列文章旨在介绍大数据领域方向。文章首先介绍了Hadoop的运行模式,包括本地模式、伪分布式和完全分布式。在本地模式下,通过创建文件并使用Hadoop示例程序进行单词统计,深入了解了Hadoop的使用方法。随后,文章详细讲解了在完全分布式环境中搭建Hadoop集群的步骤,包括安装JDK、配置环境变量和安装Hadoop等。还介绍了如何编写脚本和使用rsync工具实现文件的分发和同步,并解释了如何设置免密登录以便于集群节点之间的SSH连接。原创 2023-06-26 16:26:18 · 198 阅读 · 1 评论 -
大数据技术入门-04-集群配置
本章介绍了配置集群、HDFS和YARN的方法,以及集群的启动和基本测试。通过本系列的学习,读者将掌握大数据技术的基本规划和文件设置,了解Hadoop的强大数据存储和处理能力,以及如何管理和监控集群中的进程。原创 2023-06-27 10:14:23 · 162 阅读 · 0 评论 -
大数据技术入门-05-Hive部署
本博客将重点介绍Hive,这是一个基于Hadoop的数据仓库工具,能够将结构化的数据文件映射为表,并提供了SQL查询功能。了解Hive的本质,即将HQL转化为MapReduce程序,并深入探讨其在HDFS上存储数据、使用MapReduce进行底层数据分析和在YARN上执行程序的实现方式。此外,将对比Hive与传统数据库的差异,包括查询语言、数据更新和执行延迟等方面。还将介绍Hive的安装过程,包括MySQL的安装和配置、Hive的安装以及将Hive元数据配置到MySQL中。原创 2023-06-27 18:23:51 · 152 阅读 · 0 评论 -
大数据技术入门-06-hive的基本操作
该博客主要介绍了Hive的数据类型和DDL数据定义,包括创建数据库、查询数据库、选择数据库、创建表等操作。在内部表和外部表的部分,详细介绍了它们的区别和使用方法,并演示了如何导入数据和进行表的操作,如重命名表、增加/修改/替换列信息等。最后,在DML数据操作中,我们介绍了数据导入、插入数据、查询语句创建表和加载数据、导出数据等操作。原创 2023-07-02 10:47:20 · 433 阅读 · 1 评论 -
大数据技术入门-07-DML数据操作
本博客介绍了大数据查询的基本操作和语法。从全表查询到选择特定列、使用聚合函数、控制结果数量和过滤条件,再到分组操作、连接和排序,最后介绍了分区的概念和应用。通过学习这些技巧,读者可以快速上手数据查询,并在实际任务中灵活应用。数据查询是大数据处理和分析中不可或缺的一环。掌握查询操作和语法,对于从海量数据中提取有价值信息至关重要。希望本博客的内容能帮助读者更好地理解和应用数据查询,在大数据领域取得更好的成果。原创 2023-07-02 13:56:01 · 150 阅读 · 1 评论