大数据
文章平均质量分 79
Sicilly_琬姗
这个作者很懒,什么都没留下…
展开
-
在yarn启动spark报错2.2 GB of 2.1 GB virtual memory used. Killing container.
在网上查到该报错说是设置的虚拟内存不够引起的。报错Current usage: 360.4 MB of 1 GB physical memory used; 2.4 GB of 2.1 GBvirtual memory used. Killing container.解释意思是说container使用的虚拟内存超过了设置的2.1G那么,问题来了,这个虚拟内存的数量从那儿来的呢?是从yarn-site.xml中配置计算来的,yarn.scheduler.minimum-allocation-原创 2022-04-30 18:12:16 · 2869 阅读 · 0 评论 -
解决使用MySql存储Hive元数据遇到的Unable to instantiate问题
schematool -dbType mysql -initSchema报错原创 2022-04-28 23:55:53 · 2992 阅读 · 0 评论 -
实例演示使用HiBench对Hadoop集群进行基准测试
HiBench一、简介HiBench 是一个大数据基准套件,可帮助评估不同的大数据框架的速度、吞吐量和系统资源利用率。它包含一组 Hadoop、Spark 和流式工作负载,包括Sort、WordCount、TeraSort、Repartition、Sleep、SQL、PageRank、 Nutch indexing、Bayes、Kmeans、NWeight 和增强型 DFSIO 等。它还包含多个用于 Spark Streaming 的流式工作负载、Flink、Storm 和 Gearpump。原创 2022-03-28 13:02:36 · 2871 阅读 · 0 评论 -
在阿里云Serverless K8S集群上部署Spark任务并连接OSS(详细步骤)
在阿里云ASK集群上部署Spark任务并连接OSS简介ASK是阿里云的一个产品,属于Serverless Kubernetes 集群,这次实验是要在ASK集群上运行Spark计算任务(以WordCount为例),另外为了能让计算和存储分离,我使用了阿里云OSS来存放数据。(连接OSS这块找了好多资料都不全,在本地可以运行的代码一放在集群就报错,遇到很多bug才终于弄好了,记录下来希望对以后的小伙伴有帮助)环境准备本机需要安装:JAVA jdk1.8IDEAMavenDocker(安装在Li原创 2021-12-21 23:09:53 · 2986 阅读 · 0 评论 -
使用Docker安装Spark集群(带有HDFS)
本实验在CentOS 7中完成第一部分:安装Docker这一部分是安装Docker,如果机器中已经安装过Docker,可以直接跳过[root@VM-48-22-centos ~]# systemctl stop firewalld[root@VM-48-22-centos ~]# systemctl disable firewalld[root@VM-48-22-centos ~]# systemctl status firewalld[root@VM-48-22-centos ~]# sete原创 2021-12-16 14:41:50 · 4871 阅读 · 2 评论 -
在Linux中安装R语言包,遇到无法验证下列签名的错误
R语言包的安装方式如下Ubuntu自带的APT包管理器中的R安装包总是落后于标准版,因此需要添加新的镜像源把APT包管理中的R安装包更新到最新版。请登录Linux系统,打开一个终端,然后执行下面命令(并注意保持网络连通,可以访问互联网,因为安装过程要下载各种安装文件):利用vim打开/etc/apt/sources.list文件$ sudo vim /etc/apt/sources.l...原创 2019-10-21 10:36:58 · 471 阅读 · 1 评论