2017年10月_zhexiao27

11月 10月 09月 03月

原创本地服务器安装 GITLAB 服务

安装依赖> sudo apt-get install -y curl openssh-server ca-certificates安装邮件系统> sudo apt-get install -y postfix安装gitlab> curl https://packages.gitlab.com/install/repositories/gitlab/gitlab-ee

2017-10-31 14:37:37 524

原创在集群上运行Spark

在分布式环境下， Spark 集群采用的是主 / 从结构。在一个 Spark 集群中，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器（Driver）节点。工作节点被称为执行器（executor）节点。驱动器节点Spark 驱动器是执行你的程序中的 main() 方法的进程。它执行用户编写的用来创建 SparkContext、创建 RDD，以及进行 RDD

2017-10-26 17:22:34 2709

原创 Nginx 反向代理 + 负载均衡

安装nginx> sudo apt-get update> sudo apt-get install nginx配置安装完成后，配置文件默认路径： /etc/nginx我们在/etc/nginx/nginx.conf中的http模块可以看到：### Virtual Host Configs##include /etc/nginx/conf.d/*.conf;include /etc/n

2017-10-24 10:57:24 362

介绍我们主要介绍两种共享变量类型：accumulators聚合信息，broadcast有效的分发large values。当我们的任务涉及到了需要大量的设置时间（比如创建数据库连接或者随机数生成），我们可以把这个设置时间share到多个数据items上面。除了Spark直接支持的语言外，我们还可以使用pipe()方法来与别的编程语言进行沟通，例如使用pipe()方法来访问R语言的库。Accumula

2017-10-20 15:12:27 942

原创 Spark加载和保存数据

支持的格式文件系统：比如NFS, HDFS, S3, TEXT, JSON等使用Spark SQL处理结构化数据：比如Json，APACHE HIVE等键值对的数据库：比如CASSANDRA, HBASE, ELASTICSEARCH, JDBC等文件系统下面是一些常见的，在spark中使用的文件系统： Text Files加载文件只需要调用textFile()这个函数即可。d = sc.

2017-10-12 14:14:35 5665 2

原创 Spark Data Partitioning - Spark数据分区

一般来说，在分布式的编程中，通信是非常昂贵的，所以最大的提高性能的办法就是最小的减少网络之间的通信。Partitioning并不是在所有的应用中都是有用的，例如如果你只是对一个RDD数据全部扫描一次，这个就没有必要做partitioning操作。partitioning操作一般是当你的数据集在一个面向key的操作中需要重复使用多次，例如joins。Spark的partitioning在所有的RDDS

2017-10-10 11:29:59 1523

Springboot 自动装配原理图文

Springboot 自动装配原理图文，里面描述了整个Springboot的装配流程和所有相关的组件。

2020-12-04

算法图解 - 算法的基本操作

算法是人们利用电脑解决问题的技巧。本书以轻松的对话方式，采用图解的辅助说明，帮助读者简单、自然地掌握算法的基本概念，并养成主动思考的习惯，达到用算法解决实际问题的目的。　　全书共分12章，内容包括一切从观察开始、分而治之法、动态规划、贪婪法、修剪与搜索法、树搜索法、问题转换、图算法、计算几何、算法的难题、逼近算法、随机算法等。

2018-06-11