自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 现在Easy Scheduler想贡献给Apache基金会,我们做了一份问卷看下大家的想法,也请大家积极参与,谢谢!...

感谢各位伙伴们长期以来的持续关注和贡献,现在Easy Scheduler想贡献给Apache基金会,我们做了一份问卷看下大家的想法,也请大家积极参与,谢谢!https://wj.qq.com/s2/4190958/5588/也欢迎大家直接去https://github.com/analys...

2019-08-02 17:44:00 87

转载 分布式工作流任务调度系统EasyScheduler自定义任务插件开发

EasyScheduler自定义任务插件开发提醒:目前任务插件开发暂不支持热部署基于SHELL的任务基于YARN的计算(参见MapReduceTask)需要在 cn.escheduler.server.worker.task 下的 TaskManager 类中创建自定义任务(也需在T...

2019-06-13 17:49:00 289

转载 开源分布式工作流任务调度系统EasyScheduler使用详解

开源分布式工作流任务调度系统EasyScheduler使用详解登录输入http://192.168.xx.xx:8888/view/login/index.html 网址,输入用户名:admin,密码:escheduler123 登录<p align="center">...

2019-06-13 17:48:00 1042

转载 开源分布式工作流任务调度系统Easy Scheduler Release 1.0.2正式发布

Easy Scheduler Release 1.0.2Easy Scheduler 1.0.2是1.x系列中的第三个版本。此版本增加了调度开放接口、worker分组(指定任务运行的机器组)、任务流程及服务监控以及对oracle、clickhouse等支持,具体如下:新特性:[Easy...

2019-04-26 23:50:00 116

转载 承载每天10万级任务的数据调度系统的架构是如何设计的

在对调度系统架构说明之前,我们先来认识一下调度系统常用的名词1.名词解释DAG: 全称Directed Acyclic Graph,简称DAG。工作流中的Task任务以有向无环图的形式组装起来,从入度为零的节点进行拓扑遍历,直到无后继节点为止。举例如下图:流程定义:通过拖拽任务节点并建...

2019-04-19 22:19:00 273

转载 分布式工作流任务调度系统Easy Scheduler正式开源

分布式工作流任务调度系统Easy Scheduler正式开源1、背景在多位技术小伙伴的努力下,经过近2年的研发迭代、内部业务剥离及重构,也经历一批种子用户试用一段时间后,EasyScheduler终于迎来了第一个正式开源发布版本 -- 1.0.0。相信做过数据处理的伙伴们对开源的调度系...

2019-04-08 23:31:00 89

转载 各大互联网公司架构演进之路汇总

各大互联网公司架构演进之路汇总 大型网站架构演化历程 大型网站架构技术一览 Web 支付宝和蚂蚁花呗的技术架构及实践 支付宝的高可用与容灾架构演进 聚划算架构演进和系统优化(视频+PPT) 淘宝交易系统演进之路(专访) 淘宝数...

2016-05-16 11:47:00 100

转载 数据库拆分的几种方式

数据库做拆分的几种方式:1.按功能划分(垂直切分) 将不同功能相关的表放到不同的数据库中,这样做的好处是非常直观。但当某一部分的功能其数据量或性能要求超出了可控的范围,就需要继续对其进行深入的再切分。 2.按表中某一字段值的范围划分(水平切分) 当伴随着某一个表的数据量越来越大,以至...

2016-05-16 11:47:00 411

转载 大数据风控指标----查准率与查全率

大数据风控指标介绍 2016-03-24 大林 1查准率与查全率 先说个例子,申请人有400个,其中有160个是好人,240个是坏人。我们用一个模型A,挑出了100个好人,其中真正的好人是80个,剩下20个是漏网之鱼。 我们定义一个“查准率”(preci...

2016-05-16 11:46:00 293

转载 大数据安全规范

大数据安全规范 一、概述 大数据的安全体系分为五个层次:周边安全、数据安全、访问安全(认证 - authentication和授权 - authorization)、访问行为可见、错误处理和异常管理。下面依次说明: 1.周边安全技术即传统意义上提到的网络安全技术,如防火墙等; ...

2016-05-16 11:46:00 157

转载 架构设计文档提纲简描

一、概述 二、目的 三、项目背景 四、系统建设目标 五、参考资料 六、架构设计 6.1 架构分析 6.2 设计思想 6.3 架构体系 6.4 系统视图 6.5 模块划分 6.5.1 模块描述 6.5.2 模块接口 ...

2016-05-16 11:46:00 57

转载 YARN和MapReduce的内存设置参考

如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如cpu密集、内存密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。 完成这一任务有两种方式,确定YARN和MapReduce的内存设置,我们可以使用HDP工具...

2016-05-16 11:45:00 101

转载 Hbase万亿级存储性能优化总结

背景 hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开...

2016-05-16 11:45:00 38

转载 hbase的Region分裂代码分析

region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种情...

2016-05-16 11:45:00 101

转载 [解决]java.io.IOException: Cannot obtain block length for LocatedBlock

在hadoop测试集群运行job的过程中发现部分运行失败,有Cannot obtain block length for LocatedBlock,使用hdfs dfs -cat ${文件}的时候也报这个错,看过代码后发现是文件未被正常关闭(flume传到hdfs上的,可能由于Namenode...

2016-05-16 11:45:00 50

转载 mysql数据库分库分表(Sharding)

mysql数据库切分 前言 通过MySQLReplication功能所实现的扩展总是会受到数据库大小的限制,一旦数据库过于庞大,尤其是当写入过于频繁,很难由一台主机支撑的时候,我们还是会面临到扩展瓶颈。这时候,我们就必须许找其他技术手段来解决这个瓶颈,那就是我们这一章所要介绍恶的数据切分技...

2016-05-16 11:45:00 96

转载 Apache Flume - File通道设计

原文链接:https://blogs.apache.org/flume/entry/apache_flume_filechannel 说明:翻译在尽量符合原文表达的基础上,尽量保证行文流畅。水平有限,请多指正! 这篇文章是关于Flume FileChannel的。Fl...

2016-05-16 11:45:00 75

转载 数据库做拆分的几种方式

1.按功能划分(垂直切分) 将不同功能相关的表放到不同的数据库中,这样做的好处是非常直观。但当某一部分的功能其数据量或性能要求超出了可控的范围,就需要继续对其进行深入的再切分。 2.按表中某一字段值的范围划分(水平切分) 当伴随着某一个表的数据量越来越大,以至于不能承受的时候,就...

2016-05-16 11:39:00 144

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除