分布式计算
littletomatodonkey
work and life balance
展开
-
ubuntu16.04 hadoop与spark安装
关于平台选择的问题目前分布式计算框架主要是在linux系统下开发,因此选择ubuntu或者centos都没有问题。spark发展到现在,很多方面都已经十分完善,其速度与性能等也比hadoop好不止一个数量级,因此,主要使用spark进行分布式计算框架的学习。但是hadoop中的HDFS文件系统应用广泛,spark默认也采用hadoop的HDFS文件系统,因此安装时,首先安装配置hadoop...原创 2018-03-18 15:57:36 · 1493 阅读 · 0 评论 -
RDD的键值对操作(pair RDD)
RDD的键值对操作创建可以从RDD中直接通过map函数进行创建lines = sc.textFile("file:///usr/local/spark/README.md")pairs = lines.map( lambda x : (x.split(" ")[0], x) ) # 将第一行的第一个单词作为key,该行字符串作为value,构建pairRDDprint( pa...原创 2018-03-22 17:57:29 · 3716 阅读 · 0 评论 -
ubuntu下使用IntelliJ idea开发scala
ubuntu下使用IntelliJ idea开发scala需要的软件ubuntu16.04intellij idea 2017.3.5idea的scala插件:scala-intellij-bin-2017.3.15,因为这个一般很难下载,这里给一个csdn的下载链接:https://download.csdn.net/download/u012526003/10303110jav...原创 2018-03-22 20:51:28 · 2259 阅读 · 0 评论 -
spark基本使用
spark使用spark基本配置python命令行启动pysparkcd /usr/local/spark./bin/pyspark统计文本的行数lines = sc.textFile("file:///usr/local/spark/README.md")lines.count()* 在这里需要使用本地文件系统的绝对路径,因为在pyspark中...原创 2018-03-21 21:19:38 · 7648 阅读 · 0 评论 -
pyspark MLlib基本使用
MLib基本概念MLib其实就是将数据以RDD的形式进行表示,在分布式数据集上调用各种算法。使用方法MLlib中包含能够在集群上运行良好的并行算法,如kmeans、分布式RF、交替最小二乘等,这能够让MLib中的每个算法都能够适用于大规模数据集也可以将同一算法的不同参数列表通过parallelize(),在不同节点上运行,最终找到性能最好的一组参数,这可以节省小规模...原创 2018-03-26 23:09:19 · 7962 阅读 · 2 评论 -
MPI使用-python
MPI使用简介MPI(Message Passing Interface),消息传递接口,是一种基于消息传递的并行编程技术,常用于在非共享存储系统中开发并行程序。它定义了一套接口,许多其他厂商对其进行实现,并产生了许多库,几乎所有平台都可以使用MPI。消息传递指的是并行执行的各个进程具有自己独立的堆栈和代码段,作为互不相关的多个程序独立执行,进程之间的信息交互完全通过显示地调用通信...原创 2018-05-13 14:29:56 · 14845 阅读 · 2 评论