![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据(工具、调度)
文章平均质量分 74
。。。
四月天03
能用钱解决的问题,千万别花时间
展开
-
CDH大数据平台
FineBI是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品,它可以通过最终业务用户自主分析企业已有的信息化数据,帮助企业发现并解决存在的问题,协助企业及时调整策略做出更好的决策,增强企业的可持续竞争性。多维度分析:OLAP分析实现,提供各种分析挖掘功能和预警功能,例如任意维度切换,添加,多层钻取,排序,自定义分组,智能关联等等。即时分析:可以选择数据快速创建表格或者图表以使数据可视化、添加过滤条件筛选数据,即时排序,使数据分析更快捷。Canal的安装和使用。原创 2023-02-01 11:15:12 · 5704 阅读 · 1 评论 -
数据沙箱在大数据生产、测试物理集群隔离场景中最佳实践
大数据平台不仅需要稳定地运行生产任务,还需要提供数据开发的能力。因此,不少大数据平台都会为每个任务区分开发模式与线上模式,可以通过提交上线的方式,将开发模式任务提交到线上,让其用于线上数据生产工作。开发模式与线上模式其实可以看成两个代码相似,但完全独立的任务,为了便于后续描述,将其分别称为开发模式任务与线上模式任务。开发模式下的任务可以进行编辑、运行、调试。当任务开发完毕后,通过提交上线功能,将开发模式的任务提交到线上,也即使用开发模式的任务代码覆盖原本的线上模式任务代码。原创 2022-08-21 21:54:55 · 2147 阅读 · 0 评论 -
工作流调度工具--Oozie
一个完整的数据分析系统通常是由大量的任务单元组成,Shell脚本、Java程序、MapReduce程序、Hive脚本等等,各个任务单元之间存在时间先后及前后依赖关系。 为了很好的组织这样的复杂执行计划,需要一个工作流调度系统来调用执行。 简单的工作流调度:Liunx的crontab来定义 复杂的工作流调度:Oozie、Azakaban等。什么是O...原创 2020-04-01 11:13:09 · 3169 阅读 · 0 评论 -
informatica -- ETL调度工具
这一篇介绍 Informatica 的软件功能视图,并通过一个简单的 Demo 一窥 Infa 完整开发流程。一、Infa 软件视图1.1 概览Infa 是 C/S 的软件架构,包括 Server、Client,我们的开发工作一般集中在 Client 。在本地安装好客户端,就会看到 Infa 的几个快捷方式,常用的有 Repository Manager、Designer、Workflow Manager、Workflow Monitor,如下图所示:1.2 Repository Man原创 2020-09-25 10:48:35 · 4867 阅读 · 1 评论 -
工作流任务调度系统:Apache DolphinScheduler
1 概述Apache DolphinScheduler(目前处在孵化阶段)是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler是今年(2019年)中国易观公司开源的一个调度系统,在今年美国时间2019年8月29号,易观开源的分布式任务调度引擎DolphinScheduler(原EasyScheduler)正式通过顶级开源组织Apache基金会的投票决议,根据Apache基金会邮原创 2022-01-17 14:22:14 · 1356 阅读 · 0 评论 -
Data Pipeline
DataPipeline在大数据平台的数据流实践进入大数据时代,实时作业有着越来越重要的地位。本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践。一、企业级数据面临的主要问题和挑战1.数据量不断攀升随着互联网+的蓬勃发展和用户规模的急剧扩张,企业数据量也在飞速增长,数据的量以GB为单位,逐渐的开始以TB/GB/PB/EB,甚至ZB/YB等。同时大数据也在不断深入到金融、零售、制造等行业,发挥着越来越大的作用。2. 数据质量的要求不...原创 2020-10-14 11:13:52 · 5219 阅读 · 0 评论 -
Databus--低延迟的分布式数据库同步系统(Canal类似)
1、简介Databus是一个低延迟、可靠的、支持事务的、保持一致性的分布式数据库同步系统。它提供可靠的数据捕获、流转和数据处理功能。Databus通过挖掘数据库日志的方式,将数据库变更实时、可靠的从数据库拉取出来,业务可以通过定制化client实时获取变更并进行其他业务逻辑。github地址是:https://github.com/linkedin/databus2、Databus有以下 特点&功能&特性数据源和消费者之间的隔离。 来源独立:Databus支持多种数据来源的..原创 2020-09-26 21:50:37 · 3190 阅读 · 0 评论 -
kettle--数据库间的数据迁移工具
kettle 是纯 java 开发,开源的ETL工具,用于数据库间的数据迁移。可以在 Linux、windows、unix 中运行。有图形界面,通过图形化界面的配置,可以实现数据迁移,并不用开发代码。也有命令脚本还可以二次开发。kettle的官网是。原创 2020-02-24 10:38:39 · 3316 阅读 · 0 评论 -
CDH中Hue上创建Oozie工作流
3.Sqoop抽数作业4.Spark ETL作业将Sqoop抽取的数据通过Python的Spark作业进行ETL操作写入Hive表中1.编写Spark脚本#!/usr/local/anaconda3/bin/python#coding:utf-8# 初始化sqlContextfrom pyspark import SparkConf,SparkContextfrom pyspark.sql import HiveContext,Rowconf=(SparkConf().se原创 2022-01-18 10:50:18 · 1787 阅读 · 0 评论 -
大数据集群巡检
公司使用的大数据集群是Cloudera,定期巡检,还是查出不少问题,后面进行优化。 Hadoop集群日常维护-总结发现主要的几个问题如下,1. HDFS 小文件过多小文件问题是目前HDFS上存在的最大问题。可以使用hadoop fs -count命令,简单统计下文件数量较多的目录。小文件很多是临时文件,建议定期清理。并检查业务逻辑,主要是什么导致的小文件过多,看能否通过修改处理逻辑来避免。2. DNS域名解析不全很多新加的边缘节点,没有配置全部的host,导致集群内部解析不全。虽不影响程原创 2022-05-31 18:50:31 · 1438 阅读 · 1 评论 -
CDH--Cloudera Manager集群自动化安装,集群扩容
1、官网介绍: CDH是Cloudera的100%开源平台发行版,包括Apache Hadoop,专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成,Cloudera创建了一个功能先进的系统,可帮助您执行端到端的大数据工作流程。 简单来说:CDH是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得集群的安装可以从几天的时间缩短为几个小时,运维人数也会从数十人降低到几个人,极大的提高了集群管理的效率。...原创 2020-09-25 15:04:37 · 1428 阅读 · 0 评论