big data
文章平均质量分 85
hellozhxy
这个作者很懒,什么都没留下…
展开
-
星型模型与雪花模型的区别、分别有哪些优缺点
雪花模型和星型模型转载 2022-10-14 18:06:44 · 417 阅读 · 0 评论 -
数据仓库系列:星型模型和雪花型模型
在实际工作中多维分析的商业智能解决方案,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。转载 2022-10-14 17:50:34 · 856 阅读 · 0 评论 -
企业数据仓库技术架构
数据仓库自上世纪九十年代提出以来,技术架构一直在不断更新,尤其是进入二十一世纪以来,随着大数据相关技术的发展,数据仓库架构经历了多次升级。本文首先讲解了数据仓库的一些基本知识,包括什么是数据仓库、数据仓库和数据库的区别、数据仓库中的一些基本概念,以及数据仓库包含的层级,接着对各代数据仓库的架构一一进行讲解,从传统数仓,到大数据数仓,再到实时数仓,直到最新的湖仓一体。转载 2022-10-14 17:41:58 · 1381 阅读 · 0 评论 -
Elasticsearch等同八大全能型的数据产品对比
Elasticseach从做搜索引擎开始,到现在主攻大数据分析领域,逐步进化成了一个全能型的数据产品,在Elasticsearch诸多优秀的功能中,与很多数据产品有越来越多的交叉竞争,有的功能很有特色,有的功能只是附带,了解这些产品特点有助于更好的应用于业务需求。1、LuceneLucene是一个搜索的核心库,Elastic也是在Lucene基础之上构建,它们之间的竞争关系是由Lucene本身决定的。 在互联网2.0时代,考验各互联网公司最简单的技术要求,就是看他们的搜索做...转载 2021-11-18 15:07:30 · 1955 阅读 · 0 评论 -
Elasticsearch7.X ILM索引生命周期管理(冷热分离)
一、“索引生命周期管理”概述Elasticsearch索引生命周期管理指:Elasticsearch从设置、创建、打开、关闭、删除的全生命周期过程的管理。二、为什么要使用“索引生命周期管理”1、ELK集群之前的索引模式,通过app_name和日期区分,随着时间累积,索引数量逐渐增多,造成服务器内存、CPU、IO等指标上涨;2、需要创建额外定时任务执行索引删除脚本,这种方式无法避免kafka重复消费造成的大量已删除索引重建,并无法用脚本按日期删除;3、根据日志查询和存储的特点,将数据冷热分转载 2021-06-04 10:29:18 · 2274 阅读 · 0 评论 -
Flink安装及使用
本地部署安装 在官网安装Flink,并解压到/usr/local/flink sudo tar -zxf flink-1.6.2-bin-hadoop27-scala_2.11.tgz -C /usr/localcd /usr/local 54388226982 修改文件名字,并设置权限 sudo mv ./flink-*/ ./flinksudo chown -R hadoop:hadoop ./flink 修改配转载 2021-05-17 16:26:34 · 1789 阅读 · 0 评论 -
Hbase、Kudu和ClickHouse全视角对比
前言Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心组件,它海量的存储能力,优秀的随机读写能力,能够处理一些HDFS不足的地方。Clickhouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。能够使用SQL查询实时生成分析数据报告。它同样拥有优秀的数据存储能力。Apache Kudu是Cloudera Manager公司16年发布的新型分布式存储系统,结合CDH和Impala使用可以同时解决随机读写和s转载 2021-04-20 18:00:57 · 826 阅读 · 0 评论 -
数据湖技术 Iceberg 的探索与实践
随着大数据存储和处理需求的多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析成了企业构建大数据生态的一个重要方向。Netflix 发起的 Apache Iceberg 项目具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。本次演讲将会具体介绍 Iceberg 的设计初衷、优点和能力,通过本次分享您将会对表格式这一领域有充分的了解,并深入了解 Iceberg 的设计、实现、优势以及使用方式。本文分享主要包括四部分:数据湖技术Iceberg 原理介绍I.转载 2021-04-19 12:06:39 · 316 阅读 · 0 评论 -
快手基于 Flink 的持续优化与实践
简介: 快手基于 Flink 的持续优化与实践的介绍。一、Flink 稳定性持续优化第一部分是 Flink 稳定性的持续优化。该部分包括两个方面,第一个方面,主要介绍快手在 Flink Kafka Connector 方面做的一些高可用,是基于内部的双机房读或双机房写和一些容错的策略。第二部分关于 Flink 任务的故障恢复。我们在加速故障恢复方面做了一些优化工作。首先,介绍 Source 方面的高可用。在公司内部比较重要的数据写 Kafka 时,Kafka 层面为保障高可用一般..转载 2021-03-08 17:18:02 · 126 阅读 · 0 评论 -
Delta Lake在Soul的应用实践
简介: 传统离线数仓模式下,日志入库前首要阶段便是ETL,我们面临如下问题:天级ETL任务耗时久,影响下游依赖的产出时间;凌晨占用资源庞大,任务高峰期抢占大量集群资源;ETL任务稳定性不佳且出错需凌晨解决、影响范围大。为了解决天级ETL逐渐尖锐的问题,所以这次我们选择了近来逐渐进入大家视野的数据湖架构,基于阿里云EMR的Delta Lake,我们进一步打造优化实时数仓结构,提升部分业务指标实时性,满足更多更实时的业务需求。一、背景介绍(一)业务场景传统离线数仓模式下,日志入库前首要阶段便是ETL,转载 2021-03-03 20:49:47 · 132 阅读 · 1 评论 -
Bigo 实时计算平台建设实践
本文由 Bigo 计算平台负责人徐帅分享,主要介绍 Bigo 实时计算平台建设实践的介绍。内容包括:Bigo 实时计算平台的发展历程 特色与改进 业务场景 效率提升 总结展望一、Bigo 实时计算平台的发展历程今天主要跟大家分享 Bigo 实时计算平台的建设历程,我们在建设过程中解决的一些问题,以及所做的一些优化和改进。首先进入第一个部分,Bigo 实时计算平台的发展历程。先简单介绍一下 Bigo 的业务。它主要有三大 APP,分别是 Live, Likee 和 Imo。其中,Live转载 2021-03-01 11:00:00 · 325 阅读 · 0 评论 -
数据仓库、数据湖、流批一体
作者:蒋晓伟(量仔) 阿里云研究员金晓军(仙隐)阿里云高级技术专家摘要:数据仓库,数据湖,包括Flink社区提的流批一体,它们到底能解决什么问题?今天将由阿里云研究员从解决业务问题出发,将问题抽丝剥茧,从技术维度娓娓道来:为什么你需要数据湖或者数据仓库解决方案?它的核心难点与核心问题在哪?如果想稳定落地,系统设计该怎么做?一、业务背景1.1 典型实时业务场景首先我们来看一个典型的实时业务场景,这个场景也是绝大部分实时计算用户的业务场景,整个链路也是一个典型的流计算架构:把用户的行为.转载 2020-11-13 15:26:36 · 1161 阅读 · 0 评论 -
美团外卖离线数仓建设实践
导读: 美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对痛点做的一系列优化解决方案。01 业务介绍首先介绍下美团外卖的业务场景, 核心交易链路为:用户可以通过美团的各种用户终端(包括美团外卖的 APP 或者美团 APP、QQ/ 微信等)下单,然后商家接单转载 2020-10-13 17:02:26 · 1193 阅读 · 0 评论 -
数据中台
原文地址:https://miaowenting.site/2020/03/24/%E5%85%B3%E4%BA%8E%E6%95%B0%E6%8D%AE%E4%B8%AD%E5%8F%B0%E7%9A%84%E6%80%9D%E8%80%83%E4%B8%8E%E6%80%BB%E7%BB%93/数据中台数据汇聚数据汇聚是数据中台必须提供的核心工具,把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫.转载 2020-05-14 17:32:18 · 4987 阅读 · 2 评论 -
Apache Kylin VS Apache Doris
作者: 康凯森日期: 2018-04-17分类:OLAP1 系统架构 1.1 What is Kylin 1.2 What is Doris 2 数据模型 2.1 Kylin的聚合模型 2.2 Doris的聚合模型 2.3 Kylin Cuboid VS Doris RollUp 2.4 Doris的明细模型 3 存储引擎 4 数据导入 5 查询...转载 2020-04-12 20:02:37 · 418 阅读 · 0 评论 -
Apache Doris : 一个开源 MPP 数据库的架构与实践
分享提纲: Doris 背景介绍 适用场景 & 案例介绍 Doris 整体架构 Doris 关键技术 Doris 背景介绍介绍 Doris 的整体架构,以及 Doris 的一些特性。一、DorisDoris 是分布式、面向交互式查询的分布式数据库,主要部分是 SQL,内部用到 MPP 技术。什么是 MPP?MPP ( Massiv...转载 2020-04-11 21:21:44 · 836 阅读 · 0 评论 -
大数据常见错误解决方案(转载)
1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j...转载 2018-11-13 16:49:25 · 6629 阅读 · 0 评论 -
java整合spring和hadoop HDFS
首先添加 hadoop配置文件 hbase-site.xml ,这里只需要配置zk的地址和端口。<?xml version="1.0" encoding="UTF-8"?><configuration> <property> <name>hbase.zookeeper.quorum</name>转载 2018-11-16 19:37:39 · 1739 阅读 · 0 评论 -
Spring boot项目整合Hadoop的HDFS
由于最近需要使用Spring boot整合Hadoop的HDFS,但是在整合的过程遇到了很多问题,网上也没有现成教程,都是自己摸索出来的,配置了很久都没能把项目搭建出来,希望对大家有帮助。使用Spring boot整合HDFS主要是为了从数据库获取List,将List数据生产CSV文件,导入到HDFS进行机器学习。本文主要讲解如何整合成功和如果将List数据变成CSV文件存进HDFS当中。...转载 2018-11-16 19:38:36 · 10982 阅读 · 4 评论 -
Java 读写 hdfs文件或者目录
1.读取单个文件 [java] view plain copyDate date = DateUtil.getSpecifiedDayBefore(); String yesterday = DateUtil.dateToStr(date, "yyyy-MM-dd"); String path = "hdfs://ip:9000/output_log/output_l...转载 2018-11-22 13:24:31 · 1835 阅读 · 0 评论 -
hdfs客户端实例(kerberos+simple)
1.非安全模式在非安全模式下,访问hdfs文件系统的客户端代码如下:package ntci.hadoop.hdfs.test;import org.apache.hadoop.classification.InterfaceAudience;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs...转载 2018-11-20 13:02:27 · 743 阅读 · 0 评论 -
Linkedin Camus的使用
Preface在实现Lambda架构的时候,我以Kafka作为系统的输入,同时需要将数据批量从Kafka导入到HDFS存储起来,以备Batch layer批处理计算。而从Kafka到HDFS的数据传输,Linkedin已经有一个开源的项目,即Linkedin Camus。Camus是Kafka到HDFS的管道,它实际上是向Hadoop提交一个作业,并从Kafka获取指定topic的消息,存储...转载 2018-12-07 16:13:04 · 2431 阅读 · 0 评论 -
三种基本的存储引擎比较
1、Hash存储引擎代表数据库:redis、memcache等通常也常见于其他存储引擎的查找速度优化上。 Hash 索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree 索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以 Hash 索引的查询效率要远高于 B-Tree 索引。虽然 Hash 索引效率高,但是 Hash 索引本身由于其特殊性也带来了...转载 2019-05-30 14:50:28 · 263 阅读 · 0 评论 -
HBase、Redis、MongoDB、Couchbase、LevelDB主流 NoSQL 数据库的对比
最近小组准备启动一个 node 开源项目,从前端亲和力、大数据下的IO性能、可扩展性几点入手挑选了 NoSql 数据库,但具体使用哪一款产品还需要做一次选型。我们最终把选项范围缩窄在HBase、Redis、MongoDB、Couchbase、LevelDB 五款较主流的数据库产品中,本文将主要对它们进行分析对比。鉴于缺乏项目中的实战经验沉淀,本文内容和观点主要还是从各平台资料搜罗汇总,也...转载 2019-06-06 19:00:44 · 595 阅读 · 0 评论 -
LevelDB原理及应用
LevelDBLevelDB之概览 LevelDB是Google传奇工程师Jeff Dean和Sanjay Ghemawat开源的KV存储引擎。 了解原理之前首先要用起来,下面动手实现个例子:安装调试(mac上直接命令行下brew install leveldb即可安装,编译时候记得加上-lleveldb) example:#include <assert.h>...转载 2019-06-10 13:12:22 · 253 阅读 · 0 评论 -
LevelDB
一、LevelDB入门LevelDB是Google开源的持久化KV单机数据库,具有很高的随机写,顺序读/写性能,但是随机读的性能很一般,也就是说,LevelDB很适合应用在查询较少,而写很多的场景。LevelDB应用了LSM(Log Structured Merge) 策略,lsm_tree对索引变更进行延迟及批量处理,并通过一种类似于归并排序的方式高效地将更新迁移到磁盘,降低索引插入开销,...转载 2019-06-04 16:18:39 · 438 阅读 · 0 评论 -
DataX配置及使用
摘要: 一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBas...转载 2018-05-22 12:02:58 · 10451 阅读 · 1 评论