![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
谛听-
线上幽灵
展开
-
Raft一致性算法
每个结点都只能是以下3种状态中的一种: 1、领导者 2、候选者 3、跟随者状态转换: 跟随者只能回应其它服务器的请求。如果一个跟随者收不到信息,则变为候选者,发起选举。一个候选者如果获得大多数选票,则成为新的领导者,直到它失效。Raft确保任何时期,都满足: 1、选举安全:给定时期内至多有一个领导者。 2、领导者从不重写或删除它的日志,它只增加新的日志。 3、日志匹配:如果两个日志翻译 2016-09-28 18:26:51 · 431 阅读 · 0 评论 -
spark---环境搭建(win7 64位 IDEA)
软件下载、安装 http://blog.csdn.net/a819825294/article/details/51627083 注意:其中,jdk 1.8不能用,需要重新百度,然后下载 补充1:在添加spark-assembly-1.3.0-hadoop2.4.0.jar时,需要先点“java”: 然后找到jar所在位置,添加进来 如果Scala SDK没有被自动识别,还需添加“Sc原创 2016-11-19 17:44:15 · 2380 阅读 · 0 评论 -
Resilient Distributed Datasets: A Fault-Tolerant Abstraction forIn-Memory Cluster Computing
1 Intruction问题1: 许多框架缺乏充分利用分布式内存的抽象,这使得它们不适用于大量计算都需要重用中间结果的情形,但数据重用又比较常见,比如许多迭代机器学习和图算法、交互式数据工具。 分布式内存抽象的概念——弹性分布式数据集(RDD,Resilient Distributed Datasets),在大量应用中支持数据重用,具有容错性、并行数据结构,翻译 2016-11-22 13:10:56 · 2947 阅读 · 0 评论 -
RDD应用API---parallelize、Array、reduce、distinct、filter
图片来源:梁洪亮老师的课件 代码来源:Spark MLlib机器学习实践 王晓华parallelizedef parallelize[T: ClassTag](seq:Seq[T], numSlices:Int=defaultParallelism):RDD[T]第一个参数是数据,默认参数为1,表示将数据值分布在多少个数据节点中存放import org.apache.spark.{SparkC原创 2016-11-25 18:41:09 · 1968 阅读 · 0 评论 -
RDD应用API---flatMap、map、reduceByKey、collect、foreach
图片来源:梁洪亮老师的课件 代码来源:Spark MLlib机器学习实践 王晓华import org.apache.spark.{SparkConf, SparkContext}object WordCount{ def main(args: Array[String]) { //SparkContext 的初始化需要一个 SparkConf 对象, Spa原创 2016-11-23 22:18:33 · 3278 阅读 · 0 评论 -
TensorFlow: A System for Large-Scale Machine Learning
介绍TensorFlow优势: 支持大规模训练和推理:可使用数百个支持GPU的的服务器进行快速训练。 支持多种平台:大到大型分布式集群,小到移动设备。 灵活、通用:支持实验、研究新的机学习模型,支持系统级别的优化。表示: 使用统一的数据流图来表示算法中的计算、算法所操作的状态。 与传统的数据流系统不同,TensorFlow允许顶点表示拥有或更新可变状态的计算翻译 2017-01-12 14:50:43 · 6077 阅读 · 2 评论 -
Yak: A High-Performance Big-Data-Friendly Garbage Collector
0 概念generational假设: 最近分配的对象最可能很快地就不可用了;大多数对象生命期较短。epochal假设:许多数据路径对象具有相同的生命期,可在一个时期结束后被一起回收。控制路径 & 数据路径:一个典型的大数据系统通常会逻辑清晰地区分控制路径和数据路径,如图1所示: 控制路径执行集群管理和调度,在节点之间建立通信信道,与用户交互,即解析查询并返回结果。数据路径主要是将一些数据操作功能翻译 2017-02-27 19:23:39 · 1079 阅读 · 1 评论 -
RabbitMQ vs NSQ
转自:http://m.sohu.com/a/111058727_465236/?pvid=000115_3w_a消息可靠性:基本上这个就要求,消息协议至少需要实现Ack/requeue的功能。基本上rabbitmq和nsq在这方面都没有问题。NSQ和rabbitmq都可以写本地磁盘保证的消息不会因为突然的宕机而丢失。如果底层没有可靠的EBS服务的话,就需要额外的开发工作(题外话:...转载 2018-08-09 17:10:05 · 4034 阅读 · 1 评论