Spark
文章平均质量分 80
qq_28088259
这个作者很懒,什么都没留下…
展开
-
Spark核心源码分析与开发实战(1)-----------SSH hadoop spark集群部署
Spark安装和集群部署:1.搭建Hadoop分布式集群2.Spark安装和集群部署3.测试Spark集群二台机器,一台机器作为Master结点,另外一台作为Slaves结点步骤1: Master---台式机 JDK 1.8.0_121-b13 Slaves---HP笔记本 JDK 1.8.0_73-b02配置SSH免密码登录:http://book.51cto转载 2017-09-20 15:38:23 · 677 阅读 · 0 评论 -
具体搞spark4.26
我是在platform setting中进行了设置 而不是针对project setting进行 object可以在class下面选进去local模式没问题接下来hellohello集群模式 file-----project structure-----artifact------+ -----jar----from moddules with dependencie转载 2018-04-27 09:47:27 · 268 阅读 · 0 评论 -
4.26 Spark的运行模式
参考数据《spark核心源码分析与开发实战》Spark注重打造自己的生态系统,不仅支持多种外部文件存储系统,还为了提升自己在实际生产中的运行效率提供了多种多样的集群运行模式。spark部署在一台机器上:local本地模式 或 伪分布模式分布式集群模式部署 : standalone(Spark自带模式) yarn (yarn-client, yarn-clust转载 2018-04-26 10:12:59 · 276 阅读 · 0 评论 -
Spark RDD与Spark API编程实践2018.4.25
参考书目《 Spark源码核心与开发实战》》弹性分布式数据集 (RDD, Resilient Distributed Databases) 是Spark的核心抽象 是分布式内存的抽象使用RDD表示已被分区的、只读的,并提供了一组丰富的操作方式来操作这些数据集合,数据集的全部或部分缓存在内存中,省去了大量的磁盘IO操作操作:map FlatMap, filter转载 2018-04-25 22:26:10 · 221 阅读 · 0 评论 -
spark---2018.4.19回顾
原有的环境已经有了。现在要整理清楚,具体的步骤。1.搭建Hadoop分布式集群2.Spark安装和集群部署3.测试Spark集群步骤1详细: 搭建Hadoop分布式集群为什么要首先部署Hadoop集群?--由于我们在Spark集群中会用到Hadoop集群的HDFS(Hadoop Distributed File System)文件系统,所以在部署Spark集群之前要首先部署Hadoop集群...转载 2018-04-25 14:28:58 · 185 阅读 · 0 评论 -
基于Spark推荐系统阅读3
是转载 2018-01-17 15:23:46 · 653 阅读 · 0 评论 -
基于Spark推荐系统设计与实现阅读1
1.技术:推荐系统、搜索引擎、信息分类-------解决信息过载不同于搜索引擎,推荐系统通过分析用户、物品和上下文等信息主动向用户进行推荐。推荐引擎通过对用户本身兴趣的研究,将一些用户不会感兴趣的内容过滤掉,只提供他们可能会喜欢的信息,从而大大缩减了用户选择的信息范围。推荐系统的作用决定了它往往需要处理海量数据。-------大数据带来的挑战:推荐系统在系统架构、推荐算法等方面的挑战。转载 2018-01-16 16:38:10 · 1517 阅读 · 0 评论 -
基于Spark的推荐系统设计及实现阅读2
大数据处理领域的框架有很多。从计算的角度看,主要有MapReduce框架(属于Hadoop)生态系统和Spark框架【计算效率优秀。从存储角度来看,主要还是用Hadoop生态环境中的HDFS框架。Spark分布式计算框架:基于内存的集群计算系统。解决MapReduce磁盘读写的开销问题。吸引很多数据研究人员。逐渐形成了自己的生态系统:以Spark为基础,上层包括Spark SQL,MLib转载 2018-01-16 16:23:37 · 1437 阅读 · 0 评论 -
Spark源码核心与开发实战---Spark RDD与Spark API编程实例
如何终止spark集群 stop-all.sh Hadoop之HDFS文件操作 hadoop fs -cat /user/hadoop/output #查看文件内容http://blog.csdn.net/flyfish111222/article/details/51995523 可参考HDFS Web界面上只转载 2017-09-25 09:41:42 · 324 阅读 · 0 评论 -
MLlib基本概念2018.4.27
学习MLlib的基本数据类型的种类与用法。如何组合利用这些基本数据类型去进行一些统计量的计算 这是数据分析和挖掘的基本内容MLlib基本数据类型Local vector 本地向量集:分为两种: 稀疏型数据集spares 密集型数据集dense 只支持整型数据和浮点型数据 因为MLlib的目的就是进行数值计算。Labeled point 向量标签:转载 2018-04-27 20:00:06 · 1261 阅读 · 0 评论