- 博客(6)
- 资源 (23)
- 收藏
- 关注
原创 本地服务器安装 GITLAB 服务
安装依赖> sudo apt-get install -y curl openssh-server ca-certificates安装邮件系统> sudo apt-get install -y postfix安装gitlab> curl https://packages.gitlab.com/install/repositories/gitlab/gitlab-ee
2017-10-31 14:37:37 524
原创 在集群上运行Spark
在分布式环境下, Spark 集群采用的是主 / 从结构。在一个 Spark 集群中,有一个节点负责中央协调, 调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver) 节点。工作节点被称为执行器(executor) 节点。 驱动器节点Spark 驱动器是执行你的程序中的 main() 方法的进程。它执行用户编写的用来创建 SparkContext、创建 RDD,以及进行 RDD
2017-10-26 17:22:34 2709
原创 Nginx 反向代理 + 负载均衡
安装nginx> sudo apt-get update> sudo apt-get install nginx配置安装完成后,配置文件默认路径: /etc/nginx我们在/etc/nginx/nginx.conf中的http模块可以看到:### Virtual Host Configs##include /etc/nginx/conf.d/*.conf;include /etc/n
2017-10-24 10:57:24 362
原创 Spark高级编程
介绍我们主要介绍两种共享变量类型:accumulators聚合信息,broadcast有效的分发large values。当我们的任务涉及到了需要大量的设置时间(比如创建数据库连接或者随机数生成),我们可以把这个设置时间share到多个数据items上面。除了Spark直接支持的语言外,我们还可以使用pipe()方法来与别的编程语言进行沟通,例如使用pipe()方法来访问R语言的库。Accumula
2017-10-20 15:12:27 942
原创 Spark加载和保存数据
支持的格式文件系统:比如NFS, HDFS, S3, TEXT, JSON等使用Spark SQL处理结构化数据:比如Json,APACHE HIVE等键值对的数据库:比如CASSANDRA, HBASE, ELASTICSEARCH, JDBC等文件系统下面是一些常见的,在spark中使用的文件系统: Text Files加载文件只需要调用textFile()这个函数即可。d = sc.
2017-10-12 14:14:35 5665 2
原创 Spark Data Partitioning - Spark数据分区
一般来说,在分布式的编程中,通信是非常昂贵的,所以最大的提高性能的办法就是最小的减少网络之间的通信。Partitioning并不是在所有的应用中都是有用的,例如如果你只是对一个RDD数据全部扫描一次,这个就没有必要做partitioning操作。partitioning操作一般是当你的数据集在一个面向key的操作中需要重复使用多次,例如joins。Spark的partitioning在所有的RDDS
2017-10-10 11:29:59 1523
算法图解 - 算法的基本操作
2018-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人