冰河的专栏

持之以恒,贵在坚持,每天进步一点点。。。

Spark之——基于MLlib的机器学习

1. 简介MLlib 是Spark 中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的。MLlib 中包含许多机器学习算法,可以在Spark 支持的所有编程语言中使用,由于Spark基于内存计算模型的优势,非常适合机器学习中出现的多次迭代,避免了操作磁盘和网络的性能损耗。Spark 官...

2018-06-21 22:29:34

阅读数 470

评论数 0

Spark之——Spark Submit提交应用程序

本部分来源,也可以到spark官网查看英文版。 spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序(如*.py脚本);对于spark支持的集群模式,spark-submit提交应用的时候有统一的接口,不用太多的设置。 使用spark-s...

2018-06-19 21:44:36

阅读数 6073

评论数 1

Spark之——使用spark-submit部署应用(基于Spark 1.X)

例1: 提交 Python 应用bin/spark-submit my_script.py如果在调用 spark-submit 时除了脚本或 JAR 包的名字之外没有别的参数,那么这个 Spark 程序只会在本地执行。 当我们希望将应用提交到 Spark 独立集群上的时候,可以将独立集群的地址和希...

2018-06-19 19:40:57

阅读数 138

评论数 0

Spark之——Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程

一、修改hosts文件在主节点,就是第一台主机的命令行下;vim /etc/hosts我的是三台云主机:在原文件的基础上加上;ip1 master worker0 namenode ip2 worker1 datanode1 ip3 worker2 datanode2其中的ipN代表一个可用的集群...

2018-05-30 22:11:06

阅读数 1131

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭