大数据架构
大数据运维
大数据运维研发SRE
展开
-
开源数据流处理
随着公司规模增长,他们的工作流更加复杂,包含更多子处理过程以及带有复杂的依赖关系,这将导致更多监控、问题以及运维工作。如果没有一个清晰的数据血缘关系,可能会引起引用链问题和操作元数据丢失。这就是为什么DAGs、数据流和工作流管理器等产生的原因。 复杂的工作流可以通过DAGs来展现。DAGs就是信息沿着指定的方向在不通节点之间传递的一张图,但信息在图中流传不会回到原点。构建DAGs过程的就是数翻译 2018-01-18 13:43:48 · 1852 阅读 · 0 评论 -
Flink vs. Spark简单分析
在技术架构与选型时,首先调研市面上常见的解决方案,然后从各方面进行比较,选择适合公司应用场景的技术。本文截取了文章Hadoop vs Spark vs Flink – Big Data Frameworks Comparison 中的比较表格。各项比较 文章来源:【 DataFlair: Hadoop vs Spark vs Flink – Big Data Frameworks Com...原创 2018-10-31 14:36:08 · 1692 阅读 · 0 评论 -
翻译: Flink vs. Spark
在流处理技术框架的技术选型中,Storm/Spark/Flink进入视线。其中简单分析,就除去了Storm选项。Spark Streaming与Flink在流处理方面相差不大,甚至小规模流处理时可以直接使用Spark Streaming,因此需要详细的对比一下它们两者之间的共性与不同点。 本文是一篇译文,翻译自:Apache Spark vs. Apache Flink 。引言 Ap...翻译 2018-10-31 14:17:04 · 1051 阅读 · 0 评论 -
Hive相关的两个疑问[一]
从疑问出发,寻根问底探究原理: 1. Hive CLI/Hive Beeline/Hive JDBC断开连接之后,运行在Yarn上的任务是否继续运行? 2. 我们知道JDBC是无法做缓存的,那么HUE是如何实现缓存功能的? 本部分研究第一个问题,即客户端的状态是否影响Yarn上正在运行的任务。 首先我们从现象谈起然后逐渐找到问题的答案,既是一个解疑的过程也是一个探究研究问题...原创 2018-07-05 20:40:42 · 2593 阅读 · 0 评论 -
Alibaba DataX调研使用
接触DataX是基于公司离线数据同步需求,从而开始接触到DataX的使用。前异构数据之间开源同步工具,主要有Sqoop Sqoop是一款开源的工具,主要用于Hadoop与传统RDBMS之间的数据同步,可以将RDBMS中的数据同步到HDFS中,也可以进行逆向操作。主要是基于MR任务的进行同步,具有支持并发、增量更新、支持海量数据同步等优点。 Sqoop Wiki Sqoo...原创 2018-06-26 23:01:08 · 9481 阅读 · 0 评论 -
安装Chrome Headless遇到的问题
下载地址https://dl.lancdn.com/landian/software/chrome/m缺少依赖warning: 67.0.3396.79_x86_64.rpm: Header V4 DSA/SHA1 Signature, key ID 7fac5991: NOKEYerror: Failed dependencies: /usr/bin/lsb_release...原创 2018-06-11 08:39:39 · 6284 阅读 · 0 评论 -
Linux使用命令备忘
在使用Centos或Ubuntu时,遇到各种Linux的命令,用到的时候回去查一下语法、参数、使用等内容,但使用过后基本上就忘记了。后面再使用的话,还的继续查找相关文档。ls命令lsls -lls -ltrdu/df命令du -h --max-depth=1 /dfdf -lhtop命令toptop -Utop -p PIDfind命令fin...原创 2018-06-10 05:58:47 · 1057 阅读 · 0 评论 -
HDFS之我遇到的各种问题
Hostname问题问题描述Datanode denied communication with namenode because hostname cannot be resolved (ip=xx.xx.xx.xx, hostname=xx.xx.xx.xx) at org.apache.hadoop.hdfs.server.blockmanagement.Datanode...原创 2018-06-07 20:03:51 · 2832 阅读 · 0 评论 -
Kafka->SparkStreaming->Hbase【二】
根据业务需求,将Kafka中数据抽取插入到Hbase中。目前网上可以找到许多相关的文章,这里介绍Github上的一个开源工具。 上一章节讲到选择SparkOnHbase为主要原型,将之修改为我们需要的源代码。这里给出修改之后的源代码,修改之后符合我们的业务需求,并尽量避免引起其他不必要的问题。同时,后期优化程序执行效率问题。源代码class HBaseContext( @...原创 2018-05-16 20:46:26 · 1402 阅读 · 0 评论 -
Kafka->SparkStreaming->Hbase【一】
根据业务需求,将Kafka中数据抽取插入到Hbase中。目前网上可以找到许多相关的文章,这里介绍Github上的一个开源工具。工具地址Github上搜索结果选择工具SparkOnHbase环境配置Hadoop: 2.6.0-cdh5.12.1Spark: 1.6.0-2.10.5Hbase: 1.2.0-cdh5.12.1Hive: 1...原创 2018-05-16 20:24:26 · 1236 阅读 · 0 评论 -
Git CI/CD安装与使用【二】
在使用Gitlab的公司,使用Gitlab提供的各项功能,实现公司代码的管理、自动化编译同步等,具有非常明显的优势。通Jenkins相比,使用CI/CD可以个性化定制自己的编译内容,并触发执行,无需实现设置crontab配置。 本小节主要是Git-CI/CD配置。样例配置stages: - buildbuild_staging: stage: build ...原创 2018-05-16 17:51:10 · 1421 阅读 · 0 评论 -
Git CI/CD安装与使用【一】
在使用Gitlab的公司,使用Gitlab提供的各项功能,实现公司代码的管理、自动化编译同步等,具有非常明显的优势。通Jenkins相比,使用CI/CD可以个性化定制自己的编译内容,并触发执行,无需实现设置crontab配置。 本小节主要是Git-Runner的安装。更新repo## 打开配置文件vim /etc/yum.repos.d/gitlab-ci-multi-...原创 2018-05-16 17:44:39 · 2518 阅读 · 0 评论 -
Java Queue整理
《Java并发编程 从入门到精通》读书笔记。原创 2018-05-15 20:26:55 · 638 阅读 · 0 评论 -
Java同步辅助类总结
《Java并发编程 从入门到精通》读书笔记。原创 2018-05-13 11:52:07 · 646 阅读 · 0 评论 -
Java安全集合类
《Java并发编程 从入门到精通》读书笔记。Java集合类非常方便,但适用于现成安全场景下的集合类平常使用的比较少一点,主要是ConcurrentHashMap。原创 2018-05-13 10:57:19 · 1275 阅读 · 0 评论 -
记一个Spark模块Hive-thriftserver编译报错
[ERROR] Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:compile (scala-compile-first) on project spark-hive-thriftserver_2.10: Execution scala-compile-first of goal net.alchim31.mav...原创 2018-02-26 16:53:58 · 1629 阅读 · 1 评论 -
Ganglia-Spark/Kafka编译与安装总结
Ganglia是一款优秀的监控软件,能够监控节点级别以及组件级别的监控,并且与Nagios配合可以做到监控提示的发送通知功能。Ganliga安装预先安装配置## 服务器端yum -y install rrdtool epel-release ganglia-devel ganglia-gmetad ganglia-gmond ganglia-web httpd php#...原创 2018-02-26 13:21:55 · 1311 阅读 · 0 评论 -
Canal上手指南:mysql到kafka
1. 准备工作1.1. MySQL账号根据Canal官方说明,需要申请一个MySQL数据库的账号,该账号具有如下权限CREATE USER canal IDENTIFIED BY 'canal'; -- 至少具有如下权限GRANT SELECT, SHOW VIEW, REPLICATION SLAVE, REPLICATION CLIENT ON *.* TO 'canal'@'%'...原创 2018-11-22 21:43:32 · 3470 阅读 · 5 评论