![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 62
格赚
程序员一站式创业社区,公众号同名。
展开
-
Snowflake & Delta Lake两大新型数仓对比分析
Snowflake & Delta Lake 代表了当前业内最先进的两种数仓形态,并且都得到了市场上用户的高度认可。1概述数据分析从上世纪 80 年代兴起以来,大体经历了企业数仓(EDW)、数据湖(Data Lake)、以及现在的云原生数仓、湖仓一体等过程。企业数仓是数据仓库最原始的版本,从当前的视角来看,存在着只能处理结构化数据、集中式的存储和计算、以及成本昂贵等缺点。数据湖是伴随着数据爆炸式增长而出现的技术,它能够存储结构化以及非结构化的数据、拥有分布式的存储、以及经济的原创 2021-11-04 15:24:47 · 547 阅读 · 0 评论 -
推荐:数据平台的4个阶段:从数据库到数仓再到中台,超详细的架构全解
在大数据时代,凡是AI类项目的落地,都需要具备数据、算法、场景、计算力四个基本元素,缺一不可。处理大数据已经不能仅仅依靠计算力就能够解决问题,计算力只是核心的基础,还需要结合不同的业务场景与算法相互结合,沉淀出一个完整的智能化平台。数据中台就是以云计算为数据智能提供的基础计算力为前提,与大数据平台提供的数据资产能力与技术能力相互结合,形成数据处理的能力框架赋能业务,为企业做到数字化、智能化运营。目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用,强调技术对于业务的推动作用转载 2020-09-11 11:27:07 · 819 阅读 · 0 评论 -
腾讯看点基于 Flink 的实时数仓及多维实时数据分析实践
当业务发展到一定规模,实时数据仓库是一个必要的基础服务。从数据驱动方面考虑,多维实时数据分析系统的重要性也不言而喻。但是当数据量巨大的情况下,拿腾讯看点来说,一天上报的数据量达到万亿级的规模,要实现极低延迟的实时计算和亚秒级的多维实时查询是有技术挑战的。本文将介绍信息流场景下,腾讯看点的实时数据仓库和多维实时数据分析系统的技术架构。1、可解决的痛点可以先看一下,多维实时数据分析系统可以解决哪些痛点。比如: 推荐同学 10 分钟前上了一个推荐策略,想知道在不同人...转载 2020-09-11 10:54:14 · 512 阅读 · 1 评论 -
Ambari集成TIDB
一、离线环境准备1.上传相应离线安装包到大数据管理平台所在机器该目录下: /var/www/html/HDP/centos7/ ansible-2.5.0-pip.tar.gz :Ansible 是一个模型驱动的配置管理器,支持多节点发布、远程任务执行。默认使用 SSH 进行远程连接。无需在被管理节点上安装附加软件,可使用各种编程语言进行扩展。 ansible-sy...原创 2019-01-25 10:39:05 · 634 阅读 · 3 评论 -
转:知识图谱构建技术初探
“The world is not made of strings, but is made of things.”——辛格博士,from Google.知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。当下,知识图谱已在工业领域得到了广泛应用,如搜索领域的Goog...转载 2018-12-08 22:46:09 · 664 阅读 · 0 评论 -
Apache NiFi 开发 处理器使用说明
NIFI的使用:注意:FlowFile由【属性】和【内容】组成,在解析的过程中这个概念非常重要,因为有些组件操作的是属性,有些组件操作的是内容,在配置组件时Destination配置项的选择很重要,flowfile-content将解析结果放在数据流的内容中替换了原有的内容,flowfile-attribute将解析结果添加到flowfile的属性中,原本的内容不变。根据后续操作的需要,选择处...原创 2018-12-02 19:39:02 · 1112 阅读 · 0 评论 -
Google protobuf 使用及原理
简介什么是 Google Protocol Buffer? 假如您在网上搜索,应该会得到类似这样的文字介绍:Google Protocol Buffer( 简称 Protobuf) 是 Google 公司内部的混合语言数据标准,目前已经正在使用的有超过 48,162 种报文格式定义和超过 12,183 个 .proto 文件。他们用于 RPC 系统和持续数据存储系统。Protocol ...原创 2018-12-02 19:37:20 · 583 阅读 · 0 评论 -
es进行聚合操作时提示Fielddata is disabled on text fields by default
根据es官网的文档执行GET /megacorp/employee/_search{ "aggs": { "all_interests": { "terms": { "field": "interests" } } }}这个例子时,报错{ "error": { "root_cause"原创 2018-12-02 19:31:04 · 590 阅读 · 0 评论 -
记spark过程中Scala多线程小问题
这次更改ThriftServer源码,加了些业务,中间遇到这样一个问题,异步提交任务的时候想做成多线程,刚开始是使用的scala的Actor,传递了SQLContext和sql,发现每次sparkSessionId在一直变化,每次提交和触发Action之后产生的sessionId都不一致,这是怎么回事,后来才发现是多线程异步的问题,传递sqlContext在线程那边执行任务的时候会重新触发一个会话...原创 2018-11-03 09:54:54 · 1989 阅读 · 0 评论 -
Hbase万亿级存储性能优化总结
服务端1.hbase.regionserver.handler.count:rpc请求的线程数量,默认值是10,生产环境建议使用100,也不是越大越好,特别是当请求内容很大的时候,比如scan/put几M的数据,会占用过多的内存,有可能导致频繁的GC,甚至出现内存溢出。sapv博客之家 http://www.sapv.cn 2.hbase.master.distributed.log...原创 2018-10-30 23:00:52 · 228 阅读 · 0 评论 -
NiFi+Kylo安装部署
一、下载Kylo安装包 kylo安装包内包含 Mysql、ElasticSearch、ActiveMQ、NiFi下载,安装部署方便 博客之家 kylo-0.9.1.tar ==> 对应Nifi版本为1.6.0 curl -O -k https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch...原创 2018-10-19 20:01:56 · 2496 阅读 · 3 评论