大数据
文章平均质量分 95
老马聊技术
喜欢技术的马大爷
展开
-
Apache Hive 安装与配置的详细教程
Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。原创 2024-05-25 16:17:34 · 1486 阅读 · 1 评论 -
Hadoop单机模式Local(Standalone)模式
hadoop-env.sh、core-site.xml、hdfs-site.xml、workers(DataNode节点配置文件)、mapred-site.xml、yarn-site.xml。--SecondaryNameNode的HTTP服务地址-->--指定mapreduce使用yarn资源管理器-->--指定Mapreduce走shuffle-->--hadoop临时文件的存储路径-->--指定namenode的地址-->--配置副本数量,默认是3-->原创 2023-11-09 22:16:50 · 154 阅读 · 0 评论 -
Sqoop下载安装及使用教程
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。原创 2024-03-14 19:04:13 · 1368 阅读 · 0 评论 -
Azkaban集群模式部署详细教程
Azkaban是一个用于工作流程调度和任务调度的开源工具,它可以帮助用户轻松地管理和监控复杂的工作流程。Azkaban的架构设计旨在提供高度可扩展性和可靠性,同时保持易用性和灵活性。原创 2024-04-06 22:01:51 · 1266 阅读 · 1 评论 -
Azkaban下载/安装及单机版配置详细教程
3.5 在azkaban下找到需要的4个jar包文件,可以单独将此文件复制到azkaban下的某个单独的目录下,为后期azkaban的运行而使用(不复制也可以,只要用的时候知道从哪里找即可)注意:一定要在solo-server 的根目录执行 bin/start-solo.sh ,否则就会报找不到sql 一类的错误。例如:在/usr/local/software 目录下创建 azkaban-jar 目录,将四个文件复制到此目录下。在azkaban目录下的 azkaban-web-server 目录下执行。原创 2024-04-05 14:24:30 · 1582 阅读 · 0 评论