![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
ThePromonkeyOf_HeLuo
莫道君行早,更有早行人。
展开
-
Metacat 简介
Metacatmetacat资料Netflix 开源新作:大数据发现服务框架 Metacat重磅!Netflix开源大数据发现服务框架Metacat元数据管理拉垮得一批,还谈啥数据治理???看看腾讯是如何做大数据资产管理的饿了么元数据管理实践之路...原创 2022-01-18 16:24:34 · 3257 阅读 · 0 评论 -
Apache Atlas 简介
Atlasatlas Github atlas Documentation资料Apache Atlas - 强大的元数据管理工具Apache atlas 的入门教程浅谈元数据管理之Atlas和Metacat原创 2022-01-18 16:21:24 · 297 阅读 · 0 评论 -
湖仓一体-数据湖和数据仓库的爱恨情愁
湖仓一体湖仓一体。数仓和数据湖的打通和融合,也就是当下炙手可热的概念:Lake House。实现“湖里”和“仓里”的数据/元数据能够无缝打通,并且“自由”流动。智能湖仓把数据湖和数据仓库集成起来只是第一步,还要把湖、仓以及所有其他数据处理服务组成统一且连续的整体。...原创 2021-08-09 20:03:31 · 142 阅读 · 0 评论 -
数据湖简介
数据湖企业希望把生产经营中的所有相关数据,历史的、实时的,在线的、离线的,内部的、外部的,结构化的、非结构化的,都能完整保存下来。这就是数据湖啦!数据湖的本质,是由“➊数据存储架构+➋数据处理工具”组成的解决方案,而不是某个单一独立产品。数据沼泽。...原创 2021-08-09 20:02:28 · 136 阅读 · 0 评论 -
数据仓库简介-数仓
数据仓库资料Apache Kylin实时OLAP分析利器Druid介绍Apache Hudi原创 2021-07-27 11:22:34 · 130 阅读 · 0 评论 -
Canal
资料超详细的Canal入门,看这篇就够了!阿里开源Canal–①简介原创 2021-07-27 11:09:39 · 92 阅读 · 0 评论 -
Flink
简介flink 官网数据流上的有状态计算。整体结构部署方式运行模式Flink API支持多种扩展库多种 Time 语义灵活的窗口机制支持状态存储支持容错机制资料Flink从入门到入土(详细教程) 9Flink(一)-基本概念Flink(三)-Time-&-WatermarkFlink之一 Flink基本原理介绍一文让你彻底了解大数据实时计算引擎 Flink云星数据—Apache Flink实战系列Jark’s BlogFlink书籍基于Apache原创 2021-04-23 17:36:41 · 112 阅读 · 0 评论 -
Elasticsearch
Elasticsearch资料SpringBoot操作ES进行各种高级查询(值得收藏)原创 2021-03-16 09:32:18 · 91 阅读 · 0 评论 -
Pentaho Data Integration(or Kettle)
Pentaho Data Integration(or Kettle)解决了什么问题?方便,搞笑的解决数据清洗(ETL)工作。干什么的?Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。简介Data Integration官网Data Integration官网下载地址pentaho-kettle GitHubKettle变革历程。Kettle>Pentaho Data Integeration原创 2021-01-20 09:48:37 · 708 阅读 · 0 评论 -
数据清洗
数据清洗常用清洗工具Excelpower query。SQLPythondatastage最专业的ETL工具,价格不菲。informatica专业程度如Datastage旗鼓相当,价格似乎比Datastage便宜。kettle业界最有名的开源ETL工具。开源当然就免费,免费的有些东西使用就不是很方便。ODIoracle数据库厂商提供的工具,有局限性,与oracle数据库耦合太深。Cognosbeeload最好的国产ETL工具,但产品化程度还有一定距离。Google Refi原创 2021-01-19 15:05:31 · 213 阅读 · 0 评论 -
Hive UDF开发
关于UDAF开发注意点:1.需要import org.apache.hadoop.hive.ql.exec.UDAF以及org.apache.hadoop.hive.ql.exec.UDAFEvaluator,这两个包都是必须的2.函数类需要继承UDAF类,内部类Evaluator实现UDAFEvaluator接口3.Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数1)init函数类似于构造函数,用于UDAF的初始化2原创 2020-09-04 11:29:20 · 179 阅读 · 0 评论 -
数据可视化常用工具汇总
数据可视化flourishflourish可以快速地把表格数据转换为各种各样好看的图表,并且还支持动态可视化。原创 2020-05-28 15:13:17 · 284 阅读 · 0 评论 -
Kafka 监控
监控主流开源监控Kafka Web ConsloleKafka ManagerKafkaOffsetMonitorKafka三款监控工具比较错误汇总Exception in thread "Timer-0" org.I0Itec.zkclient.exception.ZkNoNodeException: org.apache.zookeeper.KeeperExcepti...原创 2020-04-20 14:23:51 · 338 阅读 · 0 评论 -
Kafka 常用shell汇总
主题查看主题消息总数$ bin/kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list kafka-host:port --time -2 --topic test-topictest-topic:0:0test-topic:1:0 $ bin/kafka-run-class.sh kafka.tools.GetOffse...原创 2020-04-16 10:56:33 · 206 阅读 · 0 评论 -
Kafka跨网闸,使用映射地址无法连接
作者:半兽人链接:https://www.orchome.com/1903很多人都因为配置 kafka 外网转发而困扰,我这里统一讲一下原理和原因。场景假设比如你有一个 kafka 集群,在阿里云上,该集群有 2 个 broker,A 和 B。kafka 集群:A 内网:172.10.0.2 外网:10.0.21.1B 内网:172.10.0.1 外网:10.0.21.2serve...原创 2020-04-02 09:02:31 · 2782 阅读 · 2 评论 -
大数据学习路线
入门语言Java语言一哥,在大数据圈也是泰山北斗的存在。JavaSE必须学好,这是基础的基础。JavaEE也要熟悉,大数据开发工作中,肯定要写很多接口的。SQL大数据,大数据。数据操作的SQL肯定必须学好,不能停留于增删改查,底层优化也要会。多了解底层原理,多思考优化的方案。Scala学Scala主要是写Spark。Spark在大数据的生态圈中太重要了。Shell平台,组件相关的...原创 2020-03-16 14:42:26 · 231 阅读 · 0 评论 -
Kafka 使用汇总
简介Zookeeper搭建bin/zkServer.sh start启动Kafaka 拒绝链接问题[2020-02-19 14:58:13,666] INFO Opening socket connection to server localhost/0:0:0:0:0:0:0:1:2181. Will not attempt to authenticate using SASL (u...原创 2020-02-19 17:39:56 · 239 阅读 · 0 评论 -
数据可视化常用工具
数据可视化工具Data VData VBDPBDP原创 2019-12-11 11:46:41 · 209 阅读 · 0 评论 -
数据
Shared Everything 一般是针对单个主机,完全透明共享 CPU/MEMORY/IO,并行处理能力是最差的,典型的代表 SQLServer。Shared Disk 的代表是 Oracle RAC,用户访问 RAC 就像访问一个数据库,但是这背后是一个集群,RAC 来保证这个集群的数据一致性。问题在于,Oracle RAC 是基于 IOE 架构的,所有数据用同一个 EMC 存储。在海...原创 2019-12-06 15:11:53 · 181 阅读 · 0 评论 -
数据中台简介
什么是数据中台从业务来看,数据也好,数据分析也好,最终都是要为业务服务的。数据中台要在系统层面能把 OLAP 和 OLTP 去做对接。“一切业务数据化,一切数据业务化”。数据平台发展4阶段电商系统就是 OLTP 的典型应用场景,电商的单一业务系统阶段就是之前说的数据库(DB)阶段;而 OLAP 分析需求的增长,则带动业务进入了第二个阶段,也就是数据仓库(DW)阶段,主要处理分析报表的...原创 2019-12-06 15:11:14 · 1955 阅读 · 0 评论 -
Storm -- 1
Stormstorm 官网Storm 是 Twitter 开源的分布式实时大数据处理框架,无存储功能。最早开源于 github,从 0.9.1 版本之后,归于 Apache 社区,被业界称为实时版 Hadoop。随着越来越多的场景对 Hadoop 的 MapReduce 高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统 (高频交易、股票) 等等,大数据实时处理解决方案(流计算)的...原创 2019-09-02 16:53:57 · 214 阅读 · 0 评论