Liu-Cheng Xu

温故知新

书单分享

了解一个新的领域,其中一个方法就是大量的阅读,进而产生一个基本的认识。之前研究过推荐系统,机器学习,一路走来也积累了一些书单,丢失了一些,如今还剩这些。在此分享给大家,里面有不少有关机器学习和数据挖掘,还有 Python,Spark,设计类等等。Theory 部分大部分是经典书籍,对于发论文可能显...

2017-12-07 19:32:48

阅读数:307

评论数:1

使用 Shell 脚本进行 Hadoop Spark 集群的批量安装

虽然有一些自动化安装的工具,但是功能越多,越专业的工具,可能也需要越高的学习成本,而我们并非专业运维,但是又必须做这些事情的话,不妨选择用 Shell 脚本来完成集群的安装。当然了,现在也有很多使用 docker 的做法,安装与部署也非常方便。整个过程其实很简单,就是对安装过程中的一些手动操作使用...

2017-08-30 21:52:49

阅读数:543

评论数:0

Spark History Server 没有生效

Spark 提供了 Web UI 来对 Spark 应用进行监控。每个 SparkContext 会启动一个 web UI,默认是在 4040 端口。它显示了应用相关的有用的信息,包括: 一系列的 scheduler stage 和 task RDD 大小和内存占用的概要 环境信息 正在运行的 e...

2017-07-19 18:30:36

阅读数:1037

评论数:0

Spark GraphX 对图进行可视化

Spark 和 GraphX 对并不提供对数据可视化的支持, 它们所关注的是数据处理. 但是, 一图胜千言, 尤其是在数据分析时. 接下来, 我们构建一个可视化分析图的 Spark 应用. 需要用到的第三方库有: GraphStream: 用于画出网络图 BreezeViz: 用户绘制图的结构化信...

2017-07-14 10:14:38

阅读数:2565

评论数:1

Spark GraphX: 改变图的结构

Spark GraphX 提供了 4 个十分有用的方法来改变图的结构, 方法签名如下: class Graph[VD, ED] { def reverse: Graph[VD, ED] def subgraph(epred: EdgeTriplet[VD,ED] =>...

2017-07-11 19:34:16

阅读数:1112

评论数:0

并行图计算: GraphX 的 pregel 接口

pregel, 是一个计算模型, 由 Google 最先提出, 后来 Spark 采用它作为迭代图计算的一个通用编程接口.pregel 计算模型一个 pregel 程序由一系列叫做 超步(superstep) 的迭代构成, 在每个迭代中, 每个顶点会接收到它的邻居们在上一轮迭代发送的消息, 然后改...

2017-07-10 15:06:13

阅读数:1027

评论数:0

Kafka 与消息队列的快速比较

本文译自: A super quick comparison between kafka and Message Queues本文旨在对 Kafka 与消息队列之间进行一个快速比较, 以及为何应该使用 Kafka.Kafka 起初是由 Linkedin 发展而来. 总的看来, 它有点像一个消息队列...

2017-07-03 13:17:34

阅读数:1697

评论数:0

Spark Basic RDD 操作示例

Transformation基本 RDD 的 transformation假设有一个 RDD ,其中的元素有 {1, 2, 3, 3}: 函数 目的 示例 结果 map() 将函数应用到 RDD 中的每一个元素并以 RDD 的形式返回结果 rdd.map(x => ...

2017-06-01 12:17:41

阅读数:345

评论数:0

Spark action 操作列表

以下内容来自 Spark 官方文档 Actions 小节, 更多内容可查看官方文档. 如有不当之处, 欢迎指正. 行动 涵义 reduce(func) 使用传入的函数参数 func 对数据集中的元素进行汇聚操作 (两两合并). 该函数应该具有可交换与可结合的性质, 以便于能够正确地进...

2017-05-09 10:47:56

阅读数:837

评论数:0

Spark 基本术语表

以下内容来自 http://spark.apache.org/docs/2.1.0/cluster-overview.html#glossary , 需要对 spark 的整个运行过程有所了解才能真正理解这些术语的涵义. 术语 涵义 application (应用) 基于 Spark...

2017-04-27 10:31:46

阅读数:512

评论数:0

Spark Streaming: checkpointing 小节

以下内容主要来自 http://spark.apache.org/docs/2.1.0/streaming-programming-guide.html#checkpointing 的翻译, 其中有些名词做了保留, 翻译有些粗糙, 有时间的人还是看原官方文档来的清楚明白. 有空的话, 我会自己的一...

2017-04-27 09:59:51

阅读数:332

评论数:0

Spark 与 Kafka 集成出错: Apache Spark: java.lang.NoSuchMethodError

按照 spark 与 kafka 的教程一步一步进行操作, 在运行 KafkaWordCount 的示例时,却始终没有预期的输出. 如果正确的hua话,大概是这样:...... ------------------------------------------- Time: 1488156500...

2017-04-26 13:49:16

阅读数:1806

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭