![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
工具篇
介绍日常学习以及工作用到各种工具
mlj365
本人目前从事数据挖掘工作,技术控。
古之立大事者,不惟有超世之才,亦必有坚忍不拔之志。
就像考研一样,剩者为王!
展开
-
数据平台调度系统
对于规模以上的应用来说,调度系统已经是必不可少的组成部分,尤其在基于数据分析的后台应用大量增长的今天,健壮的调度任务管理已经是非常重要的一环。1. 调度问题的由来调度问题是怎么来的当你的网站是个简单的blog,而且并不需要跟外部交互的时候,你大概不需要调度任务,因为此时网站需要处理的任务仅限于 即时交互 , 即用户想使用一个功能,你就立即给他就是了,如同你在简书上写一篇文章,一点保存,这篇文章立即就保存到网站的后台服务器中去了,这也是互联网刚出现时候的最早的应用模式。之后因为网站发展的不错,用户多转载 2020-06-29 14:17:17 · 1806 阅读 · 3 评论 -
深度解析 | 基于DAG的分布式任务调度平台:Maat
阿里妹导读:搜索中台建设过程中,单个系统不再能满足复杂业务的需求,更多时候需要多个子系统互相协作,异步地按照指定流程完成一项特定的功能。例如一个应用的上线流程依次需要调用配置同步模块、监控模块、资源更新模块、冒烟模块、引擎创建模块,流程的运行中又有分支判断、上下文传递、失败重试等需求。基于这种需求,Maat将各类流程化的任务集中管理,各个任务节点以分布式的方式运行在不同容器内,保证流程高效稳定地运行。背景什么是Maat?Maat是一个基于开源项目Airflow的流程调度系统,它支持用户自定义...转载 2020-06-29 14:15:00 · 781 阅读 · 0 评论 -
闲聊调度系统 Apache Airflow
开始之前Apache Airflow 是一个由开源社区维护的,专职于调度和监控工作流的 Apache 项目,于2014年10月由 Airbnb 开源,2019年1月从 Apache 基金会毕业,成为新的 Apache 顶级项目。Apache Airflow(以下简称 Airfolw )的概念相对比较复杂,比较核心的有 DAG 、Operators 、Tasks 三个概念。DAG 表示的是由很多个 Task 组成有向无环图,可以理解为 DAG 里面的一个节点,Task 的由 Operators 具体执行,Op转载 2020-06-23 14:07:09 · 659 阅读 · 0 评论 -
工作流任务调度系统:Apache DolphinScheduler
目录1 概述1.1 背景1.2 特点2 系统架构2.1 名词解释2.2 架构3 部署3.1 后端部署3.1.1 基础软件安装3.1.2 创建部署用户3.1.3 下载并解压3.1.4 针对escheduler用户ssh免密配置3.1.5 数据库初始化3.1.6 修改部署目录权限及运行参数3.1.7 执行脚本一键部署3.1.8 后端服务进程的说明3.1.9 dolphinscheduler后端服务启停3.2 前端部署3.2.1 下载并解压3.2..转载 2020-06-23 13:47:33 · 2101 阅读 · 0 评论 -
Hadoop - 任务调度系统比较
1.概述 在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成一件头疼的事情,如:作业的依赖调度,任务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂。那么,在没有条件和精力去开发一套调度系统的情况下,我们去选择一款第三方开源的调度系统,来尽量减轻和降低我们日常工作的复杂度,也是极好的。今天,笔者给大家比较几种常见的调度系统,供大家去选择。2.内容2.1 Oozie Oozie目前是托管在Apache基金会的,开源。在...转载 2020-06-23 10:04:09 · 344 阅读 · 0 评论 -
Anaconda的安装和详细介绍(带图文)
Anacond的介绍Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 因为包含了大量的科学包,Anaconda 的下载文件比较大(约 531 MB),如果只需要某些包,或者需要节省带宽或存储空间,也可以使用Miniconda这个较小的发行版(仅包含conda和 Python)。Conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换Anaconda包括Co...转载 2020-06-21 22:24:08 · 1201 阅读 · 0 评论 -
Python——IDLE的安装步骤
首先,IDLE是一款免费的软件,可以直接去python的官网下载,在官网找到相应自己电脑的配置的一类之后选择“Download Windows x86-64 ex...转载 2020-06-21 22:19:51 · 878 阅读 · 0 评论 -
Kettle插件开发流程
最近正好做了有关Kettle中插件开发的工作,对Kettle插件的源码进行了一定的研究,并开发了自定义的插件,在此有些感悟,记录下来。一 Kettle插件概述Kettle的开发体系是基于插件的,平台本身提供了接口,开发者按照相关规范就可以开发出相应的插件添加到Kettle中使用,感觉这个体系设计思路很不错,非常有利于Kettle后续的扩展。初次接触Kettle插件开发可以参考GitHub上有关插件模板DummyPlugin的源码,通过对源码的分析,发现Kettle插件开发的流程还是比较简单的,以Du.转载 2020-05-30 11:49:20 · 1115 阅读 · 0 评论 -
在阿里云上搭建自己的git服务器
这篇文章我就来介绍一下如何在一台全裸的阿里云主机上搭建自己的git服务器。1. 安装git首先安装git,一般而言,现在的服务器已经内置了git安装包,我们只需要执行简单的安装命令即可安装。比如:$ yum install git # centos$ apt-get install git # ubuntu上面是直接用root登陆服务器进行操作,也是为了演示方便。git和mysql不一样,mysql在安装时,得安装mysql-server,即mysql服务器,git是分布式的,每一个安...转载 2020-05-26 23:19:16 · 339 阅读 · 0 评论 -
在阿里云服务器上搭建svn服务器
github: https://my.oschina.net/u/2898970/blog/1551693每次在下班把代码拷回家或者以其他网络方式发送项目都感觉十分麻烦,所以最近在阿里云的云服务器上搭建了svn服务器,方便拉取项目,而且能通过版本控制,下面是搭建的步骤: 1.下载对应的服务端与客户端软件服务器端VISUALSVN SERVER 3.3.1 下载...转载 2020-05-26 23:08:22 · 426 阅读 · 0 评论 -
BI工具选哪家?聊一聊国内外BI工具的选型对比
说起BI工具,虽然从1996年BI概念提出到今天,已经有整整20年的历史,但BI市场的格局仍在剧烈动荡。开源软件与商用软件之间的争夺此消彼长,不断搅动市场,这给企业在进行B...转载 2020-04-14 16:42:16 · 326 阅读 · 0 评论 -
Kafka学习之路 (一)Kafka的简介
目录一、简介1.1 概述1.2 消息系统介绍1.3 点对点消息传递模式1.4 发布-订阅消息传递模式二、Kafka的优点2.1 解耦2.2 冗余(副本)2.3 扩展性2.4 灵活性&峰值处理能力2.5 可恢复性2.6 顺序保证2.7 缓冲2.8 异步通信三、常用Message Queue对比3.1 RabbitMQ3.2 Redis3.3 ZeroMQ3.4 ActiveMQ3.5 Kaf...转载 2020-04-13 23:40:25 · 85 阅读 · 0 评论 -
Hadoop完整解析
文章目录1:首先了解一下Hadoop是什么以及能为...转载 2020-04-13 23:29:25 · 206 阅读 · 0 评论 -
Java开源数据库分类列表整理
HSQLDB ...转载 2020-04-02 11:08:06 · 644 阅读 · 0 评论