![](https://img-blog.csdnimg.cn/20191019114305961.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 68
红岸水滴
https://github.com/fenglei110
从孤独中寻找自由。
展开
-
spark/flink + kafka 是如何做到 exactly once的?
端到端Exactly Once的含义就是:Source的每条数据会被处理有且仅有一次,并且输出到Sink中的结果不重不丢。Flink和Spark structure streaming能否做到端到端的exactly once?是可以的。由于原理类似,接下来拿spark举例分析一下。kafka有关详细内容请看:KIP-98 - Exactly Once Delivery and Transactional Messaging - Apache Kafka - Apache Software Fou原创 2022-04-09 11:45:12 · 1979 阅读 · 0 评论 -
聊聊OLAP
OLAP和OLTP不同的是,表中单条记录本身并不是查询所关心的,比较典型的特点包括有聚合类算子、涉及多表Join,查询所用谓语/条件没有索引。由于这些操作都非常耗计算资源,而且数据仓库相比数据库在数据量上大很多,因此OLAP类查询经常表现为cpu-bound而不是io-bound。按照建模类型将OLAP划分:1. MOLAP2. ROLAP3. HOLAP一. MOLAP这应该算最传统的数仓了,九十年代olap概念提出来时,指的就是MOLAP数仓,M即表示"多维"。大多数MO原创 2021-10-23 11:50:09 · 849 阅读 · 1 评论 -
知识体系
总结下自己的知识体系,发现任重道远。底层的技术依然要不断巩固。原创 2021-03-14 16:39:43 · 234 阅读 · 0 评论 -
Hive日常调优3
3.1 Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM orders;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默...原创 2019-10-04 12:16:47 · 1114 阅读 · 0 评论 -
Hive常用命令2
2.1 数据导入2.1.1 向表中装载数据(Load)语法:hive> load data [local] inpath '/opt/module/datas/order.txt' [overwrite] into table order(partition='20190925');load data:表示加载数据local:表示从本地加载数据到hive表;否则从HDFS加...原创 2019-10-04 11:02:07 · 819 阅读 · 0 评论 -
Hive的基本概念1
Hive的基本概念1. 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上1.2. Hive的优缺点...原创 2019-10-04 10:07:45 · 800 阅读 · 0 评论 -
数仓模型构建流程
数据仓库的发展大致经历了这样的三个过程:1. 简单报表阶段:这个阶段,系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所 需要的汇总数据。大部分表现形式为数据库和前端报表工具。3. 数据集市阶段:这个阶段,主要是根据某个业务部门的需要,进行一定的数据的采集,整理,按照业务人员的需要,进行多维报表的展现, 能够提供对特定业务指导的数据,并...原创 2019-08-10 19:18:19 · 22357 阅读 · 6 评论 -
数仓构建流程
首先理解以下基本概念:1. 业务板块:比数据域更高维度的业务划分方法,适用于特别庞大的业务系统。2. 维度:维度建模由Ralph Kimball提出。维度模型主张从分析决策的需求出发构建模型,为分析需求服务。维度是度量的环境,是我们观察业务的角度,用来反映业务的一类属性 。属性的集合构成维度 ,也可以称为实体对象。例如, 在分析交易过程时,可以通过买家、卖家、商品和时间等维度描述交易发生的...原创 2019-08-10 19:16:24 · 10568 阅读 · 1 评论 -
数据仓库
做数仓做久了,真感觉越来越向数据产品经理的方向发展了。数据产品经理是近年来随着大数据的发展蹦出来的一个岗位,很多人搞不懂数据分析师、数据产品经理、数据仓库开发工程师、ETL工程师到底是什么岗位?下周吧,总结一篇。这周先写写数仓的东西,感觉自己真应该总结下过往经验输出一下了。一、什么是数据仓库?数据仓库是为了方便企业快速做各种业务决策提供数据支撑而构建的集成化数据环境。有一句话很好的体现了数...原创 2019-07-28 15:26:51 · 798 阅读 · 0 评论 -
聊聊DW/BI
随着公司业务的不断发展,公司会积累大量各种类型的数据。这些海量的数据如果没有得到有效的分析和利用,那么不会对业务产生该有的价值。构建一个大数据分析平台,结合多个业务系统,从中抽取海量数据进行管理、整合、分析和利用,从中发现潜在问题和有价值的规律,并通过可视化的方式进行展现,能够为管理层提供科学决策的支持,提升企业的业务能力和效益,确保数据驱动业务增长。 那么数据...原创 2019-08-04 23:19:49 · 2939 阅读 · 0 评论 -
实战中spark遇到的问题
最近总结一波面试问题(包括python,MySQL,大数据等,一个人力量有限),有兴趣查看github1.数据倾斜的产生和解决办法?数据倾斜以为着某一个或者某几个 partition 的数据特别大,导致这几个 partition 上的计算需要耗费相当长的时间。在 spark 中同一个应用程序划分成多个 stage,这些 stage 之间是串行执行的,而一个 stage 里面的多个 t...原创 2019-04-14 21:12:29 · 1088 阅读 · 0 评论 -
对于spark,你需要知道的核心概念
最近总结一波面试问题(包括python,MySQL,数据科学,机器学习,大数据等,一个人力量有限),有兴趣查看github1.hadoop 和 spark 使用场景?Hadoop/MapReduce 和 Spark 最适合的都是做离线型的数据分析,但 Hadoop 特别适合是单次分析的数据量“很大”的情景,而 Spark 则适用于数据量不是很大的情景。(1) 一般情况下,对于中小互联...原创 2019-04-14 21:12:48 · 1096 阅读 · 0 评论 -
数据特征工程
更多总结查看Github只要数据好,模型随便搞。所以说来相对于机器学习和建模,准备好数据是极其重要的。那如何准备数据呢,讨论一下。对于数据特征工程,可以这样划分:1. 特征使用 <数据选择,可用性>2. 特征获取 <特征来源,特征存储>3. 特征处理 <数据清洗,特征预处理>4. 特征监控 <现有特征,新特性>今天说说...原创 2019-01-05 11:43:17 · 734 阅读 · 0 评论 -
Hbase概念详解
1. 概述HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库( 熟悉hadoop生态系统的应该明白,Hbase数据实际存于HDFS上,这里不详解),与我们熟悉的Oracle、MySQL、MSSQL等一样,...原创 2018-10-04 23:48:36 · 2448 阅读 · 1 评论