- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 Apache Spark RDD介绍
1. RDD是什么? RDD 全称 Resilient Distributed Dataset,叫做弹性分布式数据集,是 Spark 中最基本的数据抽象,它代表了一个不可变、可分区、里面的元素可并行计算的集合。 Resilient :弹性,RDD 的数据是可以保存在内存或者磁盘中,所以是弹性的。 Distributed:对数据集内部的元素进行分布式存储,便于后期进行分布式计算。 DataSet:数据集合。 2. RDD 五大属性 A list of partitions partition(分
2020-08-20 18:13:36 453
原创 Apache Spark 内存计算框架简介
1. spark是什么? Apache Spark™ is a unified analytics engine for large-scale data processing. spark是针对于大规模数据处理的统一分析引擎 spark 是在Hadoop基础上的改进,基于map reduce算法实现的分布式计算框架,所以spark 拥有Hadoop MapReduce所具有的优点。 spark 不同于 MapReduce 的是 spark 的 Job中间输出和结果可以保存在内存中,从而不再需要读写HD
2020-08-20 17:14:55 637
原创 Git 本地/远程 仓库回滚到上次提交状态
1.Git仓库回滚情景 在软件开发过程中发现,某次提交的有问题,需要紧急将本地/远程仓库,恢复到上次提交之前的状态。 本地仓库回滚 git reset --hard 目标版本号 或 git reset --hard HEAD^ 这样操作,只是将本地仓库回滚到上次提交之前的状态,不会对远程仓库造成影响。 远程仓库回滚 远程仓库回滚需要在本地仓库回滚的基础上,进行强制推送。 git reset --hard 目标版本号 git push -f -f 即强制推送,因为本地仓库在reset之后,版本
2020-08-03 13:25:33 6165 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人