![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
genius0182
这个作者很懒,什么都没留下…
展开
-
大数据学习笔记01-虚拟机环境准备
一、安装CENTOS及配置网络使用VMWARE虚拟机安装CENTOS7,安装过程不在叙述,这里主要是要使用NAT方式。然后配置网络。1、网络配置IP根据NAT里面的配置,进行配置。这里有两个地方,一个是本机的网络管理里VMnet8网卡虚拟机网卡设置点虚拟机菜单<编辑>-虚拟网络编辑器vim /etc/sysconfig/network-script/ifcfg-ens33修改以下几项B...原创 2018-04-29 14:19:39 · 266 阅读 · 0 评论 -
Zookeeper学习笔记
Zookeeper简介Zookeeper是一个开源的,针对大型分布式系统的可靠协调系统。提供的功能包括:发布/订阅、分布式协调\通知、配置管理、集群管理、主从协调、分布式锁等。Zookeeper的特性1、最终一致性 保证最终数据能够达到一致,是zookeeper的最重要功能。2、顺序性 从同一客户端发起的事务请求,最终会严格地按照其发送顺序被应用到zookeeper中。3、可靠性 一旦服...原创 2018-06-09 15:07:53 · 252 阅读 · 0 评论 -
SPARK ON YARN 配置 history server
今天在单位搭建SPARK ON YARN时,发现 yarn里的history不好用。于是开始搭建。这里记录一下遇到的一些问题。首先,如果你的yarn-site.xml 里面用的是主机名配置。一定要在本地。WINDOWS下的host把你的主机名配上。因为这个原因,浪费了好多时间。二、如果想用spark on yarn模式,并且要查看history的话,一定要在yarn-site.xml里配置如下: ...原创 2018-06-25 22:33:29 · 5257 阅读 · 1 评论 -
记一次使用SPARK生成自增ID的解决方案
在这个项目中遇到的一个问题,由于数据库使用的是GREENPLUM,GREENPLUM提供的SPARK驱动是使用的先生成外部表,然后在使用INSERT 表名 SELECT * FROM 外部表的方式方法导入数据的。并且这种方式不支持自增ID。于是我们开始尝试使用SPARK或其他方式生成ID。1、使用REDIS生成自增ID。优点:使用REDIS的INCNY实现自增,并且没有并发问题,REDIS...原创 2018-08-03 11:23:13 · 7874 阅读 · 0 评论 -
spark.streaming.kafka.maxRatePerPartition计算规则
spark.streaming.kafka.maxRatePerPartition这个参数是控制吞吐量的,一般和spark.streaming.backpressure.enabled=true一起使用。那么应该怎么算这个值呢。如例要10分钟的吞吐量控制在5000,0000,kafka分区是10个。spark.streaming.kafka.maxRatePerPartition=8400...原创 2018-08-03 11:59:11 · 11337 阅读 · 0 评论