大数据相关
文章平均质量分 92
一个java业务开发接触到的大数据技术栈,记录一下
流~星~雨
基础不牢,地动山摇
展开
-
spark+hive执行时报java.lang.OutOfMemoryError:GC overhead limit exceeded
GC出问题了,整体上就要从两个方面去考虑,一是自己写的程序代码是不是有问题,由于我这里的代码很简单,只是见到的执行了一个sql,而且sql没有更好的优化方案了,所以排除了程序代码的问题;二就是相应的内存是不是给的少了,因为这里要处理的表的数据量特别大,不是java经常操作的mysql这种数据库处理的量级,所以第一时间去看了spark-shell的执行脚本里的一些配置,也从网上百度了一些博客,有的告诉调整executor-memory的大小,我试了没有效果,后来是看到了另一篇博客告诉。原创 2024-04-09 08:50:11 · 817 阅读 · 0 评论 -
Spark简单了解
目前的项目中有涉及到Spark,所以在网上简单了解了一下,然后在自己的虚拟机上简单实现了目前项目上使用Spark的流程。介绍了使用外部表关联的方式通过hive sql的方式将hadoop中的数据同步到了hbase中,因为目前java有相关的API可以访问hbase,并且查询hbase的速度应该是比操作hive更快。原创 2024-03-18 15:20:50 · 951 阅读 · 0 评论 -
hive中的数据同步到hbase
hive中我也都创建好了表,其中t_gdp是原始数据表,tmp_gdp_table是和hbase中gdp表关联的外部表,我这里因为只是一个简单的示范,只是将t_gdp表中的数据insert到了tmp_gdp_table表中,正常的业务中,可能是查询了多个表,通过sql处理将数据存到tmp_gdp_table中,然后通过外部表映射的方式同步到habse的gdp表中。好了,想介绍的都说完了,我下面的操作都是基于自己电脑上的虚拟机,不是集群的操作,虚拟机上启动habse,hadoop,和hive。原创 2024-03-13 09:35:56 · 1306 阅读 · 2 评论 -
虚拟机安装单机hive以及简单使用hive
hive是我打算了解的有一个大数据方面的一个技术栈,上一篇介绍了Hadoop和hbase,有兴趣的朋友可以点击“文章”浏览,今天要介绍的hive也是要基于hadoop的,安装hive也要提前安装好hadoop。刚了解这块的朋友肯定就会疑问这三者之间的关系是什么呢,从我这段时间对它们的简单了解,我的理解是,hadoop是根本,它通过分布式存储,分布式计算的方式从而提供了存储,处理大数据量的能力。原创 2023-12-04 16:48:18 · 1253 阅读 · 0 评论 -
虚拟机安装hadoop,hbase(单机伪集群模式)
工作中遇到了大数据方面的一些技术栈,没有退路可言,只能去学习掌握它,就像当初做爬虫一样(虽然很简单),在数据爆发的现在,传统的数据库mysql,oracle显然在处理大数据量级的数据时显得力不从心,所以有些特定的业务需要引进能够处理大数据量的数据库,hadoop提供了分布式文件系统(HDFS)来存储数据,又提供了分布式计算框架(mapreduce)来对这些数据进行处理,另一个hadoop的核心组件是yarn,我的理解它是一个任务调度平台。原创 2023-11-28 13:09:53 · 1504 阅读 · 2 评论