Spark
文章平均质量分 66
liuchengxu_
这个作者很懒,什么都没留下…
展开
-
Spark 基本术语表
以下内容来自 http://spark.apache.org/docs/2.1.0/cluster-overview.html#glossary , 需要对 spark 的整个运行过程有所了解才能真正理解这些术语的涵义. 术语 涵义 application (应用) 基于 Spark 构建的用户程序. 一般包括了集群上的一个 driver 程序与多个 executor applic原创 2017-04-27 10:31:46 · 1460 阅读 · 0 评论 -
使用 Shell 脚本进行 Hadoop Spark 集群的批量安装
虽然有一些自动化安装的工具,但是功能越多,越专业的工具,可能也需要越高的学习成本,而我们并非专业运维,但是又必须做这些事情的话,不妨选择用 Shell 脚本来完成集群的安装。当然了,现在也有很多使用 docker 的做法,安装与部署也非常方便。整个过程其实很简单,就是对安装过程中的一些手动操作使用 Shell 脚本进行替代。对脚本比较熟悉的话,应该很容易看懂。推荐一个网站,explainshell,原创 2017-08-30 21:52:49 · 1083 阅读 · 0 评论 -
Spark History Server 没有生效
Spark 提供了 Web UI 来对 Spark 应用进行监控。每个 SparkContext 会启动一个 web UI,默认是在 4040 端口。它显示了应用相关的有用的信息,包括:一系列的 scheduler stage 和 taskRDD 大小和内存占用的概要环境信息正在运行的 executor 的一些信息只要打开 http://:4040 就可以看到该页面。如果有多个 Spark原创 2017-07-19 18:30:36 · 3724 阅读 · 0 评论 -
Spark GraphX 对图进行可视化
Spark 和 GraphX 对并不提供对数据可视化的支持, 它们所关注的是数据处理. 但是, 一图胜千言, 尤其是在数据分析时. 接下来, 我们构建一个可视化分析图的 Spark 应用. 需要用到的第三方库有:GraphStream: 用于画出网络图BreezeViz: 用户绘制图的结构化信息, 比如度的分布.这些第三方库尽管并不完美, 而且有些限制, 但是相对稳定和易于使用. 安装 Gra原创 2017-07-14 10:14:38 · 5502 阅读 · 1 评论 -
Kafka 与消息队列的快速比较
本文译自: A super quick comparison between kafka and Message Queues本文旨在对 Kafka 与消息队列之间进行一个快速比较, 以及为何应该使用 Kafka.Kafka 起初是由 Linkedin 发展而来. 总的看来, 它有点像一个消息队列系统, 并做了一些调整使其能够支持发布/订阅, 在多个服务器上进行扩展, 对消息进行重放 (或者说, “翻译 2017-07-03 13:17:34 · 4692 阅读 · 0 评论 -
Spark GraphX: 改变图的结构
Spark GraphX 提供了 4 个十分有用的方法来改变图的结构, 方法签名如下: class Graph[VD, ED] { def reverse: Graph[VD, ED] def subgraph(epred: EdgeTriplet[VD,ED] => Boolean, vpred: (VertexId, VD) => Bo原创 2017-07-11 19:34:16 · 2133 阅读 · 0 评论 -
并行图计算: GraphX 的 pregel 接口
pregel, 是一个计算模型, 由 Google 最先提出, 后来 Spark 采用它作为迭代图计算的一个通用编程接口.pregel 计算模型一个 pregel 程序由一系列叫做 超步(superstep) 的迭代构成, 在每个迭代中, 每个顶点会接收到它的邻居们在上一轮迭代发送的消息, 然后改变它的顶点和边. 此外, 在每个超步结束的时候, 每个顶点也会给它的邻居们发送消息. 通过将其看作顶点,原创 2017-07-10 15:06:13 · 2565 阅读 · 0 评论 -
Spark Basic RDD 操作示例
Transformation基本 RDD 的 transformation假设有一个 RDD ,其中的元素有 {1, 2, 3, 3}: 函数 目的 示例 结果 map() 将函数应用到 RDD 中的每一个元素并以 RDD 的形式返回结果 rdd.map(x => x+1) {2, 3, 4, 4} flatMap() 将函数应用到 RDD 中的每一个元素,并以原创 2017-06-01 12:17:41 · 657 阅读 · 0 评论 -
Spark action 操作列表
以下内容来自 Spark 官方文档 Actions 小节, 更多内容可查看官方文档. 如有不当之处, 欢迎指正. 行动 涵义 reduce(func) 使用传入的函数参数 func 对数据集中的元素进行汇聚操作 (两两合并). 该函数应该具有可交换与可结合的性质, 以便于能够正确地进行并行计算. collect() 在 driver program 上将数据集中的元素作为一个数原创 2017-05-09 10:47:56 · 3828 阅读 · 0 评论 -
Spark Streaming: checkpointing 小节
以下内容主要来自 http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#checkpointing 的翻译, 其中有些名词做了保留, 翻译有些粗糙, 有时间的人还是看原官方文档来的清楚明白. 有空的话, 我会自己的一些理解补充到里面. 有些基本的名词还是一定要懂的, 比如 job, task, application原创 2017-04-27 09:59:51 · 516 阅读 · 0 评论 -
Spark 与 Kafka 集成出错: Apache Spark: java.lang.NoSuchMethodError
按照 spark 与 kafka 的教程一步一步进行操作, 在运行 KafkaWordCount 的示例时,却始终没有预期的输出. 如果正确的hua话,大概是这样:......-------------------------------------------Time: 1488156500000 ms-------------------------------------------(原创 2017-04-26 13:49:16 · 3752 阅读 · 0 评论 -
书单分享
了解一个新的领域,其中一个方法就是大量的阅读,进而产生一个基本的认识。之前研究过推荐系统,机器学习,一路走来也积累了一些书单,丢失了一些,如今还剩这些。在此分享给大家,里面有不少有关机器学习和数据挖掘,还有 Python,Spark,设计类等等。Theory 部分大部分是经典书籍,对于发论文可能显性的帮助没那么大,属于“内功”。书单 GitHub 地址:books我目前专注的是区块链,blockch原创 2017-12-07 19:32:48 · 847 阅读 · 1 评论