- 博客(3)
- 资源 (1)
- 收藏
- 关注
转载 详解RDD、DataFrame、Dataset
转载:https://www.cnblogs.com/starwater/p/6841807.html 在Spark中,有三个针对数据的抽象结构:RDD、FataFrame、Dataset。 1 共同点 RDD、FataFrame、Dataset有以下共同点: RDD、FataFrame、Dataset都是分布式的弹性数据集,是对处理的数据的一种抽象。 都有 惰性机制,在 转化操作 时,不会立即执行,只有在遇到 行动操作 时才会开始计算。 都会根据Spark内存情况自动缓存运算,即使数据量很大也不用担.
2021-07-26 00:11:24 1103
原创 Docker构建能够ssh远程登录的CentOS7容器
期望效果:通过Docker构建一个安装了ssh的CentOS 7容器,并能够通过远程工具登录。 1 下载centos:7镜像 docker pull centos:7 2 创建目录,编写Dockerfile [root@localhost ~]# cd /home/root/docker/ [root@localhost docker]# mkdir centos-ssh [root@localhost docker]# cd centos-ssh/ [root@localhost docker]# .
2021-07-21 23:24:28 921 4
原创 CentOS 7 升级内核到4.4
CentOS 7.x系统自带的3.10.x内核存在一些Bugs,导致运行的Docker、kubernetes不稳定,建议升级内核到4.4。 下载内核源 rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-3.el7.elrepo.noarch.rpm 安装最新版本内核 yum --enablerepo=elrepo-kernel install -y kernel-lt 查看可用内核 cat /boot/grub2/grub.cfg |grep menue
2021-07-19 22:58:21 1177
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人