wandy0211-CSDN博客

原创 conductor 架构

The API and storage layers are pluggable and provide ability to work with different backends and queue service providers.Runtime ModelHigh Level StepsSteps required for a new workfl...

2019-11-28 09:52:55 530

原创 conductor

Conductor是Netflix公司构建的基于云的微服务编排引擎，主要用于构建公司各种业务流程。目的：我们使用Conductor帮助我们在Netflix上编排基于微服务的流程，它具有以下特点:1、可以创建复杂的流程/业务流，并且可以用微服务实现实现其中的单个任务。2、使用JSON DSL描述的工作流蓝图。3、为这些流程流提供可见性和可追溯性，即可以跟踪和管理工作流。4、可...

2019-11-28 09:46:22 511

原创 conductor

一、首先从git上检出项目这个https://github.com/Netflix/conductor是项目的github地址，选择SSH或者HTTPs检出，git clonegit@github.com:Netflix/conductor.git（执行git命令需要先安装git）至任意位置。二、启动本地服务进入项目目录下，右键git bash here，执行命令cd se...

2019-11-27 20:34:29 1134

原创 prometheus exporter

广义上讲所有可以向Prometheus提供监控样本数据的程序都可以被称为一个Exporter。而Exporter的一个实例称为target，如下所示，Prometheus通过轮训的方式定期从这些target中获取样本数据:Exporter的来源从Exporter的来源上来讲，主要分为两类：社区提供的Prometheus社区提供了丰富的Exporter实现，涵盖了从基础设施，中间...

2019-11-07 15:27:54 440 1

样本Prometheus会将所有采集到的样本数据以时间序列（time-series）的方式保存在内存数据库中，并且定时保存到硬盘上。time-series是按照时间戳和值的序列顺序存放的，我们称之为向量(vector). 每条time-series通过指标名称(metrics name)和一组标签集(labelset)命名。如下所示，可以将time-series理解为一个以时间为Y轴的数字矩阵...

2019-11-07 15:15:13 3246

原创深入理解Flink-On-Yarn模式

Flink提供了两种在yarn上运行的模式，分别为Session-Cluster和Per-Job-Cluster模式，本文分析两种模式及启动流程。1. Session-Cluster模式：session-cluster模式需要先启动集群，然后提交作业...

2019-11-07 09:09:26 266

原创 flinkx二次开发

Flinkx优点：FlinkX简化了数据同步任务的开发过程，用户只需提供一份数据同步任务的配置，FlinkX会将配置转化为Flink任务，并自动提交到Flink集群上执行。用于在多种数据源（MySQL、Oracle、SqlServer、Ftp、Hdfs,HBase、Hive、Elasticsearch等）之间进行高效稳定的数据同步。Flinkx缺点：flinkx启动是通过flinkx ...

2019-11-06 17:04:17 3008 2

原创 flink启动流程源码分析

flink启动 https://www.cnblogs.com/love-yh/category/1490983.htmlflink启动脚本是：start-cluster.shbin=`dirname "$0"`bin=`cd "$bin"; pwd`. "$bin"/config.sh# Start the JobManager instance(s)shopt -s ...

2019-11-06 17:03:42 428

原创 flinkx架构

FlinkX是在袋鼠云内部广泛使用的一个基于Flink的异构数据源离线同步工具，用于在多种数据源（MySQL、Oracle、SqlServer、Ftp、Hdfs,HBase、Hive、Elasticsearch等）之间进行高效稳定的数据同步。FlinkX简化了数据同步任务的开发过程，用户只需提供一份数据同步任务的配置，FlinkX会将配置转化为Flink任务，并自动提交到Flink集群上执行。...

2019-11-06 11:32:40 2048

原创 flinkx学习

什么是FlinkXFlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线数据同步框架，实现了多种异构数据源之间高效的数据迁移。不同的数据源头被抽象成不同的Reader插件，不同的数据目标被抽象成不同的Writer插件。理论上，FlinkX框架可以支持任意数据源类型的数据同步工作。作为一套生态系统，每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通在底层实现上，Flin...

2019-11-06 11:29:03 301

转载 Flink源码解析 | 从Example出发：理解Flink启动流程

从《Apache Flink本地部署》这篇文章中可以看到，我们启动集群都是通过脚本start-cluster.sh开始执行。我们的源码解析之路就从flink的bash脚本入手。start-cluster.shbin=`dirname "$0"`bin=`cd "$bin"; pwd`. "$bin"/config.sh# Start the JobManager instanc...

2019-11-05 11:09:12 371

原创 JanusGraph问题

一问题：使用jar包连接 JanusGraph 会挂掉，报连不上远程主机。回答：待回答二问题：查询节点或节点数量时出现WARN org.janusgraph.graphdb.transaction.StandardJanusGraphTx - Query requires iterating over all vertices [()]. For better performa...

2019-11-01 16:53:15 533

原创 java架构师

架构师的定义？　　个人觉得架构师需要具有以下几特点：　　知识广度：需要知道主流技术为什么诞生，能解决什么问题？如果同一种业务用不用的技术来实现，会有什么哪些优缺点？比如：流行的ORM框架Mybatis 和 hibernate ，还有spring框架他们之间的优缺点是什么？要有清晰的认识会能在技术造型时做出正确的决定。　　抽象能力：对业务和技术进行抽象。比如业务抽象就是对需求进行分析后，...

2019-11-01 16:36:45 162

转载使用Log4j将程序日志实时写入Kafka

使用Log4j将程序日志实时写入KafkaDemo及相关软件下载：https://download.csdn.net/download/wqc19920906/10342360很多应用程序使用Log4j记录日志，如何使用Kafka实时的收集与存储这些Log4j产生的日志呢？一种方案是使用其他组件（比如Flume，或者自己开发程序）实时监控这些日志文件，然后发送至Kafka。而另外一种...

2019-11-01 15:40:44 234

原创 JanusGraph

Setting up JanusGraph i noticed the following in the console:09:04:12,175 INFO ReflectiveConfigOptionLoader:173 - Loaded and initialized config classes: 10 OK out of 12 attempts in PT0.023S09:04:...

2019-10-31 16:51:38 482

原创 org.apache.hadoop.hbase.NotServingRegionException: Region is not online 错误总结

遇到了下面错误：14/05/16 03:59:30 INFO master.MasterFileSystem: Log folder hdfs://master:8020/hbase/WALs/slave1,60020,1400183951986 belongs to an existing region server 14/05/16 03:59:30 INFO master.MasterF...

2019-10-31 16:50:23 4247

转载 yarn使用cgroup隔离cpu资源

yarn使用cgroup隔离cpu资源yarn默认只管理内存资源,虽然也可以申请cpu资源,但是在没有cpu资源隔离的情况下效果并不是太好.在集群规模大,任务多时资源竞争的问题尤为严重.还好yarn提供的LinuxContainerExecutor可以通过cgroup来隔离cpu资源cgroupcgroup是系统提供的资源隔离功能,可以隔离系统的多种类型的资源,yarn只用来隔离cp...

2019-10-31 16:30:25 238

原创主流图库对比以及JanusGraph入门

1.Overall Comparison Name Neo4j JanusGraph Giraph 1.Compute Framework Yes Yes Yes 2.External Compone...

2019-10-23 17:40:33 1905

原创 GreenPlum 基础操作

GreenPlum 基础操作入门教程1.启动gp：gpstart2.重启gp：gpstop -r3.不重启数据库，reload配置文件：gpstop -u4.停止gp：gpstop该命令等待所有事务完成后才进行停止5.快速停止gp：gpstop -M fast...

2019-10-23 10:43:24 369

原创 hive数据同步

文件同步到hive逻辑，1. 文件put到hdfs上的/user/hive/tmp 目录下： hadoop fds -put data /user/hive/tmp2. 创建外部表，映射文件：CREATE EXTERNAL TABLE `wandytest.chinese_clerk_stage`( `guid` bigint, `clerk_id` str...

2019-10-22 16:08:48 1681

原创 oozie学习

什么是工作流：工作流就是预先定义好的工作流程模型。它描述如何将前后工作工作节点组织在一起的逻辑和规则。工作流解决的主要问题有：实现多个业务目标：多个参与者或者工作节点，利用计算机，按照定义规则自动传递。什么是oozie：一个hadoop生态圈的工作流引擎，管理大部分hadoop生态圈服务任务的工作流。oozie安装和配置：（1）安装Maven ...

2019-10-17 09:32:20 154

原创 CDH集群部署脚本

hosts[root@ipsynm0001 ~]# cat 154_scp_hosts_all.sh#!/bin/bashfor ip in `cat /root/ip_all_154.txt`do/root/scp_hosts.exp /etc/hosts $ip /etc/hosts root Yhrt@2016done[root@ipsynm0001 ~]# cat s...

2019-10-15 16:35:42 335 1

原创 Greenplum安装总结

Greenplum安装总结一、环境说明服务器centos7 4台，一台Master节点,三台Segment节点:mdw 192.168.43.21 （master节点）sdw1 192.168.43.22 (segment节点，包含两个primary segment,两个mirror segment）sdw2 192.168.43.23 (segment节点，包含两个...

2019-10-15 16:02:42 327

原创 JanusGraph

JanusGraphJanusGraph简介：分布式、开源、可大规模伸缩的图形数据库。JanusGraph是一个可伸缩的图形数据库，用于存储和查询包含分布在多机器集群中的数千亿顶点和边的图形。扩展性：为不断增长的数据和用户群提供弹性和线性可伸缩性数据分布和复制，以提高性能和容错能力多数据中心高可用性和热备份交易性：JanusGraph是一个事务...

2019-10-15 16:02:26 704

原创 GreenPlum集群搭建安装

一，安装说明1.1环境说明名称版本操作系统CentOS 6.x 64bitgreenplumGreenplum-db-5.0.0-rhel6-x86_64.rpm1.2集群介绍使用1个master，n个segment的集群.示例：196.168.0.1196.168.0.2196.168.0.3196.168.0.4其中196.168....

2019-10-14 09:49:59 329

原创 mysql连接出错：ERROR 1040 (HY000): Too many connections

连接mysql，结果出错：? 1 ERROR 1040 (HY000): Too many connections 去修改mysql的配置文件，然后添加：? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1...

2019-10-13 16:27:03 360

原创 yum问题解决

可能会出现的问题1、问题youdon'thavepermissiontoaccess/onthisserver(ApacheServer权限访问问题）ApacheHttpServer已经在linux上安装完成，可是通过浏览器访问，却出现了“youdon'thavepermissiontoaccess/onthisserver”.解决：（...

2019-10-13 14:12:55 476

原创 Binlog日志的三种模式介绍及模式修改

Binlog日志的三种模式介绍一、Binlog日志的三种模式1.1Statement Level模式每一条修改数据的sql都会记录到master的bin_log中，slave在复制的时候sql进程会解析成master端执行过的相同的sql在slave库上再次执行。优点：statement level下的优点首先就是解决了row level下的缺点，不需要记...

2019-10-13 13:25:27 323

原创 MariaDB配置及修改数据存储路径

１，yum安装数据库，yum生成地址：https://downloads.mariadb.org/mariadb/repositories/#mirror=tuna1.创建/etc/yum.repos.d/MariaDB.repo文件，这里用到了刚刚发布正式版的10.0[mariadb]name = MariaDBbaseurl = http://yum.mariadb.org/10.0/...

2019-10-13 13:24:44 7236

原创使用CentOS的DVD制作公司内部YUM安装源

这里假定使用有两台机器来模拟，一台机器做YUM安装源，另外一台机器作为测试机。1. 首先我们使用http的源来作为YUM的安装源，所以我们需要首先确保机器已经安装了apache，如果没有安装的话可以使用 "sudo yum install httpd" 来安装。安装完可以使用 "sudo service httpd start" 来启动服务。2. 创建YUM安装源sudo mount -...

2019-10-09 16:43:00 81

原创 MariaDB三种方法安装及多实例实现

化澄风1人评论7993人阅读2018-06-11 00:41:04本章内容Mariadb的三种安装方式： 1、程序包管理器管理的程序包 2、二进制格式的程序包：展开至特定路径，并经过简单配置后即可使用 3、源代码：编译安装MariaDB在一台机器上的多实例实现本机环境系统版本：以CentOS_7.5_x86_64为例Mari...

2019-10-09 10:26:22 886

原创批量实现多台服务器之间ssh无密码登录的相互信任关系

最近IDC上架了一批hadoop大数据业务服务器，由于集群环境需要在这些服务器之间实现ssh无密码登录的相互信任关系。具体的实现思路：在其中的任一台服务器上通过"ssh-keygen -t rsa"产生公私钥文件，然后将公钥文件拷贝成authorized_keys文件，最后将它的.ssh目录下的文件全部批量拷贝到其他服务器的/root/.ssh目录（即当前用户家目录的.ssh）下即可。这批hado...

2019-10-08 17:18:15 144 1

转载 KSQL和Flink SQL的比较

　Confluent公司于2017年11月宣布KSQL进化到1.0版本，标志着KSQL已经可以被正式用于生产环境。自那时起，整个Kafka发展的重心都偏向于KSQL——这一点可以从Confluent官方博客中KSQL出现的频率之高看出端倪。鉴于最近周围有很多小伙伴都在讨论KSQL，我突然想起了去年9月份Apache Flink“掌门人” Stephan Ewen所写的关于KSQL V.S. ...

2019-08-29 09:27:47 760

原创 kafka学习 --- kafka confluent platform部署

Confluent Platform是一个流媒体平台，通过一个可靠的高性能系统，您可以组织和管理来自多个不同来源的数据。Confluent提供了业界唯一的企业级事件流平台，为应用程序和数据基础设施提供了一个新的范例。使用Confluent平台，您可以将数据作为持续更新的事件流，而不是作为离散快照。Confluent Platform通过将来自多个源和位置的数据集成到您公司的一个中央事件流媒...

2019-08-29 06:51:46 491 1

原创 kafka学习--confluent-platform

confluent-platform是由Apache Kafka的原始创建者创建事件流平台！confluent-platform重新定义为企业解决方案。作为事件的流数据支持解决大规模问题的全新方法。特点：关键任务可靠性部署有信心：在卡夫卡专家搭建的平台上。企业规模的流程：在GBps吞吐量下提供低于25ms的延迟。保护您的事件流平台: 具有企业级加密、认证和授权功能。...

2019-08-28 16:29:02 638

原创开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)

本文为博主公司转载文章，转载请回复留言（不知道这么转载，实在抱歉）开源OLAP引擎测评报告(SparkSql、Presto、Impala、HAWQ、ClickHouse、GreenPlum)易观CTO 郭炜序现在大数据组件非常多，众说不一，在每个企业不同的使用场景里究竟应该使用哪个引擎呢？这是易观Spark实战营出品的开源Olap引擎测评报告，团队选取了Hive、Sparksql、Pr...

2019-08-28 09:10:53 694

原创 kafka学习--kafka connect架构

kafka connect架构

2019-08-27 14:14:30 583

原创 kafka学习----kafka connectors开发

kafka connectors开发1. 核心概念：1.开发source2.开发sink

2019-08-27 11:40:12 156

原创 kafka学习--- 使用kafka connect监控kafka connectors

监控指标运行状态数据流量（处理，挤压，异常）

2019-08-27 11:33:00 980

原创 kafka学习--使用kafka conect操作kafka connector

1. 配置kafka connectorskafka connectors配置是简单的键值映射。对于独立模式，这些在属性文件中定义，并传递到命令行上的kafka Connect进程。在分布式模式下，它们将包含在JSON有效负载中，用于创建(或修改)kafka connectors的请求。大多数配置都依赖于kafka connectors，因此不能在这里列出它们。然而，有几个常见的选择:...

2019-08-27 11:31:31 1128

janusgraph部署开发.docx

graylog日志检索系统调研.docx

【恩墨学院】CDH集群的企业部署.pdf

Oozie的安装与配置.docx

空空如也