分布式
chroje
这个作者很懒,什么都没留下…
展开
-
dubbo产生和原理
dubbo产生关于dubbo的使用场景,这个要从系统的演变开始将起,既然dubbo的使用很多是在电商系统中,那么就从电商系统的演变开始讲起。 一个简单的电商网站说起,它可能包含如下的几个模块和功能,如首页、detail页、list页、下单页、支付页以及后台管理等页面和功能。单一的系统架构,使得在开发过程中,占用的资源越来越多,而且随着流量的增加使得维护起来越来越难以维护。 于是就...转载 2018-03-07 23:14:43 · 442 阅读 · 0 评论 -
简单介绍一致性哈希算法
原文来自点击打开链接介绍一致性哈希算法是分布式系统中常用的算法。比如,一个分布式的存储系统,要将数据存储到具体的节点上,如果采用普通的hash方法,将数据映射到具体的节点上,如key%N,key是数据的key,N是机器节点数,如果有一个机器加入或退出这个集群,则所有的数据映射都无效了,如果是持久化存储则要做数据迁移,如果是分布式缓存,则其他缓存就失效了。一致性哈希算法就是为了解决这样的问题。算法的...转载 2018-02-19 00:20:10 · 453 阅读 · 0 评论 -
从Oracle导入数据到ElasticSearch
使用工具是logstash6.2.4https://www.elastic.co/cn/首先要知道的是,logstash抽取Oracle的数据是通过追踪某一个递增列实现增量导入的,所以就要求在查询结果有一个递增列,这并不是说需要一个自动增长列,因为在Oracle中,rownum可以作为查询结果中的一个递增列,如SELECT * FROM(SELECT NP.*, ROWNUM RN FROM (S...原创 2018-05-22 22:28:54 · 12354 阅读 · 2 评论 -
编译Spark
Spark发展至今已经相当成熟了,编译起来也相当方便。SBT编译由于国内网络问题不能连接Maven中央仓库,想用SBT编译的同学可以改userhome目录下的repository文件连接Oschina和aliyun仓库,这两个仓库我都试过结果还是没连上,所以改为使用maven编译。环境为Win10版本为2.3.0准备环境:Maven、Git配置Git/bin目录Maven/bin和到Path路径首...原创 2018-05-22 23:00:40 · 348 阅读 · 0 评论 -
RDD源码分析--Iterator
RDD,Resilient Distributed Datasets,弹性分布式数据集。在Spark中,通俗地可以认为是一个数据集合,只不过这个数据集合分布在不同的机器上,对外表现为一个整体。一般来讲,对RDD进行操作比如map操作时分为两步,第一步为局部操作,即是对每台机器上的RDD的部分数据都进行map并行操作,第二步为汇总操作,将每台机器的执行结果进行汇总。其中有一个问题是,RDD中的数据集...原创 2018-05-28 12:02:01 · 940 阅读 · 0 评论 -
Spark Streaming中的checkpoint
Checkpoint我们必须记录一些信息以方便恢复现场,在Spark Streaming中使用checkpoint实现恢复操作。Spark Streaming中有两种不同对象的checkpont操作。元数据(Metadata) checkpointing保存Streaming中定义流计算的相关信息到可信赖的文件系统如HDFS,这种方式用于运行Driver的节点失败之后的恢复。元数据包括:配置---...原创 2018-06-04 12:10:56 · 744 阅读 · 0 评论