大数据
文章平均质量分 67
夜里慢慢行456
菜鸡
展开
-
数据湖---hudi核心概念
正如您所看到的,一个旧的查询不会看到当前飞行中提交的文件以粉色编码,而是在提交后开始的一个新的查询会拾取新的数据。因此,查询不受任何写入失败/部分写入的影响,仅在提交的数据上运行。如果您当前的部署模型是单编写器,以及在同一进程中运行的异步表服务(如清理、集群、压缩),如Deltastremer连续模式写入MOR表、Spark流(默认情况下压缩是异步的),以及您自己的作业设置在同一编写器中启用异步表服务,则必须具有乐观的并发控制,在启用元数据表之前配置的锁提供程序和延迟失败写入清理策略如下。原创 2022-12-30 17:16:41 · 1240 阅读 · 0 评论 -
flink docker-compose 配置
version: "2.1"services: jobmanager: image: flink expose: - "6123" ports: - "8081:8081" command: jobmanager environment: - JOB_MANAGER_RPC_ADDRESS=jobmanager - TZ=Asia/Shanghai deploy: resources:原创 2021-12-05 11:46:24 · 772 阅读 · 0 评论 -
大数据修炼之flink
文章目录概述官网概述原创 2021-08-11 14:32:51 · 79 阅读 · 0 评论 -
微服务修炼之一致性协议
文章目录ZABraftpaxos在分布式系统中一致性协议有二阶段提交(2PC)1、三阶段提交(3PC)、Paxos、Raft等算法2ZABhttps://www.cnblogs.com/frankltf/p/10392151.html论文:http://www.tcs.hut.fi/Studies/T-79.5001/reports/2012-deSouzaMedeiros.pdfraftpaxoshttps://blog.csdn.net/demon7552003/article/de原创 2021-08-11 14:11:17 · 106 阅读 · 0 评论 -
大数据修炼之emqx
文章目录概述官网概述emqx是一款物联网的消息服务器,完整物联网协议支持,MQTT、MQTT-SN、CoAP、LwM2M、WebSocket 或私有协议支持具体可以看官网原创 2021-03-11 17:13:03 · 859 阅读 · 0 评论 -
大数据修炼之influxdb
文章目录安装官网influxdb2.0时间序列平台是专门为收集、存储、处理和可视化度量和事件而构建的。它由Go写成,着力于高性能地查询与存储时序型数据。InfluxDB被广泛应用于存储系统的监控数据,IoT行业的实时数据等场景。TICK技术栈包括Telegraf, InfluxDB, Chronograf, Kapacitor安装docker-compose 安装version: '3'services: emqx: image: emqx/emqx containe原创 2021-02-05 14:33:57 · 1085 阅读 · 0 评论 -
kettle源码分析之5 日志系统
文章目录https://blog.csdn.net/weixin_39819880/article/details/88087652用过kettle的人都有体会,spoon的使用机制是swing的gui开发,在整个过程的机理会使用大量的事件监听。日志系统也一样。loglevel级别分为:NOTHING( 0, “Nothing” ),ERROR( 1, “Error” ),MINIMAL( 2, “Minimal” ),BASIC( 3, “Basic” ),DETAILED( 4,原创 2021-01-22 14:10:57 · 1050 阅读 · 0 评论 -
一次kettle内存泄漏排查与解决
对内存dump进行分析:[Full GC (Ergonomics) [PSYoungGen: 108461K->0K(2247168K)] [ParOldGen: 4737211K->3868172K(4779008K)] 4845673K->3868172K(7026176K), [Metaspace: 116691K->114102K(1165312K)], 1.2683131 secs] [Times: user=11.14 sys=3.38, real=1.26 secs原创 2021-01-22 10:27:47 · 1600 阅读 · 0 评论 -
kettle源码分析之4 osgi与插件开发
文章目录简介https://wiki.pentaho.com/display/EAI/OSGI+in+Kettle简介对于kettle的插件系统可以看一下上面连接的文档。大意是:kettle引入OSGI来消除xml配置的内置插件和基于注解/xml的jar插件,尽可能的减少制定代码。...原创 2021-01-17 10:28:41 · 893 阅读 · 0 评论 -
大数据修炼之elasticsearch安装部署
文章目录架构安装docker安装单节点软件包安装使用运维官网架构在一个分布式系统里,多个Elasticsearch运行实例可以组成一个集群(cluster),该集群里有一个动态选举出来的主节点(master)。如果主节点失败,会自动选出新的节点作为主节点,所以不存在单点故障。在同一个子网内,只需要在每个节点上设置相同的集群名,这些集群名相同的节点会自动组成一个集群。Elasticsearch包含了节点和节点之间通信模块及节点之间的数据分配和平衡模块。为了实现容错,Elasticsearch会把查询文档原创 2020-12-17 21:16:17 · 186 阅读 · 0 评论 -
kettle之R_STEP_TYPE表id
文章目录在对kettle进行二次开发的时候,发现kettle的机制里,对于R_STEP_TYPE表有个自动更新的用法。代码跟踪如下: // //////////////////////////////////////////////////////////////////////////////// // // R_STEP_TYPE // // Create table... boolean ok_step_type = true; table = ne原创 2020-10-20 10:37:46 · 435 阅读 · 0 评论 -
kettle源码分析之3 carte与rest api
文章目录安装用户认证基础认证cookie认证服务调用文件管理目录资源文件资源数据源CarteSchedules用户角色中心安装软硬件要求9.0版本需要安装licencekettle服务比较简单的方式是放在tomcat容器中,作为单独的应用服务对外提供功能,当然也支持carte的形式,作为一个简单的http服务器。在调度篇提到了carte,可以移步kettle源码分析之1启动流程(IDEA启动carte调试)本篇主要关注carte集群的搭建。用户认证基础认证https://tools.ietf原创 2020-10-10 16:32:48 · 3464 阅读 · 0 评论 -
大数据修炼之压缩格式
文章目录ORC支持数据格式avroParquetORC官网ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。ORC File文件结构支持数据格式Integer boolean (1 bit) tinyint (8 bit) smallint (16 bit) int (32 bit)原创 2020-10-10 16:32:15 · 153 阅读 · 0 评论 -
大数据修炼之mongodb
文章目录概述docker安装使用用户数据库文档数据概述官网MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。https://docs.mongodb.com/manual/https://www.runoob.com/mongodb/mongodb-databases-documents-collections原创 2020-10-09 10:52:34 · 400 阅读 · 1 评论 -
大数据修炼之sqoop
文章目录前言总结官网前言主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。总结...原创 2020-10-08 22:05:04 · 68 阅读 · 0 评论 -
大数据修炼之pig
文章目录pig组件Pig Latin数据模型执行机制Grunt Shellshellsetquit命令Pig Latin 基础数据模型数据类型数学操作符比较类型构建操作关系操作读取数据存储数据诊断操作符描述explainIllustrateGroupJoin参考: Beginning Apache Pig—big data procesiing made easy官网教程Pig是2006面Yahoo开发的组件,并于2007年捐献给apache。2010年作为apache的顶级项目。pig与hive一原创 2020-09-30 08:52:13 · 388 阅读 · 0 评论 -
kettle源码分析之1启动流程(IDEA启动carte调试)
文章目录通常的core模块是用来做公共组件和核心功能的,kettle的core也是。单从根目录看,kettle也是使用了较多的配置文件:cluster 文件夹很明显是和集群进行连接处理的。compatibility 兼容数据类型i18n 国际化lafmetastore 元数据core 核心功能部分作为一款ETL工具,数据库兼容功能是最重要的部分。database包包含大量的数据库元数据的配置。extension: kettle的扩展机制,稍后介绍。.原创 2020-09-09 16:20:01 · 1590 阅读 · 1 评论 -
kettle执行job流程分析
文章目录调试代码调试kettle调试远程执行的作业代码在远程调用使用carte服务的时候,使用比较多的2个工具类:Trans,Job下面看一下经常用的Job的远程调用方法:public static String sendToSlaveServer( JobMeta jobMeta, JobExecutionConfiguration executionConfiguration, Repository repository, IMetaStore metaStore ) throw原创 2020-09-08 11:01:19 · 1658 阅读 · 0 评论 -
kettle组件开发运行无效果的问题
在对kettle进行二次开发的时候, 配置了一个HadoopCofyFiles的组件,远程到Carte服务执行,日志:虽然显示为完成作业项,但其实并没有执行组件相应的功能操作。而在Spoon探索资源库,导入任务执行,发现任务正常执行,说明数据库数据应当没错。于是跟踪代码,发现下面的问题:能够执行成功的作业的JobMeta中JobEntry有明确的实现类。而在问题组件里,entry为MissingEntry。也因此缺失了一部分的配置数据,因此怀疑与这个MissingEntry相关,数据缺失,导致ket原创 2020-09-05 12:00:52 · 633 阅读 · 0 评论 -
编程修炼之Phoenix
文章目录概述安装官网概述Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作,并支持标准SQL中大部分特性:条件运算,分组,分页,等高级查询语法。和hbase协作并不会降低性能,且减少很多代码。hbase与phoenix的对应关系:hbasephoenixnamespacedatabasetabletablecolumn familycf:cqcolum quliafierrowkeyPK在原创 2020-09-03 06:02:36 · 198 阅读 · 0 评论 -
大数据修炼之Kafka
文章目录原创 2020-08-16 21:05:53 · 174 阅读 · 0 评论 -
大数据修炼之HBase的爱恨情仇
文章目录原创 2020-08-14 19:26:50 · 291 阅读 · 0 评论 -
centos7安装ambari使用的repo仓库和执行命令
参考博客:https://blog.csdn.net/liuyunshengsir/article/details/102885122wget -P /etc/yum.repo.d wget http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.4.0/ambari.repowget -P /etc/yum.repo.d wget http://public-repo-1.hortonworks.com/HDP/cen原创 2020-08-10 22:39:27 · 504 阅读 · 0 评论 -
大数据修炼之Hive
文章目录原创 2020-08-10 22:38:07 · 185 阅读 · 0 评论 -
大数据修炼之Zookeeper
文章目录原创 2020-08-10 21:33:56 · 177 阅读 · 0 评论 -
kettle运行mapreduce卡死问题
Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMasterPlease check whether your etc/hadoop/mapred-site.xml contains the below configuration:yarn.app.mapreduce.am.envHADOOP_MAPRED_HOME=fullpathofyourhadoopdistributiondir原创 2020-08-05 11:18:52 · 500 阅读 · 0 评论 -
大数据修炼之hadoop--MapReduce
文章目录定义概念流程支持的数据类型定义MapReduce最早是由谷歌公司研究提出的一种面向大规模数据处理的并行计算模型和方法。特点:MapReduce是一个基于集群的高性能并行计算平台。MapReduce是一个并行计算与运行软件框架。MapReduce是一个并行程序设计模型与方法。易于编程,良好的扩展性,高容错性,适合PB级别以上的海量数据的离线处理但是同时,不适合实时计算,不擅长流式计算,不擅长DAG计算(程序依赖)概念Job(任务): 一个MR程序MRAppMaster(MR任务的原创 2020-08-02 21:32:13 · 205 阅读 · 0 评论 -
大数据修炼之hadoop--HDFS
文章目录原理组件原理假设前提与设计目标硬件错误大规模数据集简单的一致性模型移动计算比移动数据共划算异构软硬件平台见的可以执行组件Namenode:HDFS的守护进程,用来管理文件系统的命名空间,负责记录文件是如何分割成数据块,以及这些数据块分别被存储到哪些数据节点上,它的主要功能是对内存及IO进行集中管理。Datanode:文件系统的工作节点,根据需要存储和检索数据块,并且定期向Namenode发送它们所存储的块的列表。Secondary Namenode:辅助后台程序,与Nam原创 2020-07-31 23:43:37 · 155 阅读 · 0 评论 -
大数据练级之kettle代码结构分析
组件下载的工具包里有几个组件但是我们对执行文件分析一下,就发现这几个命令行工具的基础还是Spoon:call Spoon.bat -main org.pentaho.di.kitchen.Kitchen -initialDir "%initialDir%"\ %*结构:kettle-core:kettle的核心模块,包括一些数据处理等。kettle-dbdialog:kettle数据库连接界面逻辑。kettle-engine:kettle的引擎,负责执行kettle的具体作业和转换的逻辑,原创 2020-07-25 20:34:59 · 570 阅读 · 0 评论 -
大数据练级之kettle:Spoon启动程序到底干了点啥?
最近搭建kettle的源码调试环境整的焦头烂额。编译的zip包运行正常,可是用ide进行调试确实各种报错。为了制止这些不停歇的恶心,我们来看看Spoon.java里面到底干了些什么,为什么有那么多的报错。 public static void main( String[] a ) throws KettleException { boolean doConsoleRedirect = !Boolean.getBoolean( "Spoon.Console.Redirect.Disabled"原创 2020-07-25 17:04:58 · 1094 阅读 · 0 评论 -
大数据练级之hadoop3.2.1分布式安装
文章目录软件要求:检查ssh命令执行MapReduce官网:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html软件要求:java,ssh,sshd,pdsh也推荐安装伪分布式环境配置:etc/hadoop/core-site.xml:<configuration> <property> <name>fs.de原创 2020-07-17 22:16:35 · 239 阅读 · 0 评论 -
编程练级之大数据练级攻略
核心分布式文件存储:Hadoop HDFS、Tachyon、KFS离线计算:Hadoop MapReduce、Spark流式、实时计算:Storm、Spark Streaming、S4、Heron ,flinkK-V、NOSQL数据库:HBase、Redis、MongoDB资源管理:YARN、Mesos日志收集:Flume、Scribe、Logstash、Kibana消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ查询分析:Hive、Impala、Pig、Presto原创 2020-07-15 14:58:25 · 113 阅读 · 0 评论 -
kettle9.1 源码环境配置
环境准备maven 3+JDK 1.8下载settings.xml文件,存放于.m2文件下源码下载源码下载地址:https://github.com/pentaho/pentaho-kettle.git开始构建maven下载比较慢添加镜像: <mirrors><mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http:原创 2020-07-07 23:08:32 · 6089 阅读 · 20 评论 -
Amazon是如何用数据湖解决大数据挑战的?
原文链接:How Amazon is solving big-data challenges with data lakes当杰夫•贝佐斯过去在车库里完成订单,亲自把包裹送到邮局时,成本计算、库存跟踪和未来需求预测还相对简单。25年后,亚马逊的零售业务在全球拥有超过175个营运中心(FC),拥有超过250000名全职员工,每天运送数百万件商品。亚马逊的全球金融运营团队有一项令人难以置信的任务是来跟踪所有这些数据(PB级)。在亚马逊的规模下,一个计算错误的指标,比如单位成本,或者延迟的数据都会产生巨大的影翻译 2020-07-13 16:37:30 · 546 阅读 · 0 评论