大数据架构师
文章平均质量分 50
mischen520
JAVA高级架构师
展开
-
数据倾斜产生的原因以及解决思路
我们以Spark和Hive的使用场景为例。他们在做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。一般来说,数据倾斜原因有以下几方面:1)key分布不均匀;2)建表时考虑不周我们举一个例子,就说数据默认值的设计吧,假设我们有两张表:user(用户信息表):userid,register_ipip(转载 2021-09-11 08:16:23 · 3260 阅读 · 0 评论 -
大数据中的数据倾斜表现
1)hadoop中的数据倾斜表现:有一个或几个Reduce卡住,卡在99.99%,一直不能结束。各种container报错OOM异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer伴随着数据倾斜,会出现任务被kill等各种诡异的表现。2)hive中数据倾斜一般都发生在Sql中group by和join on上,而且和数据逻辑绑定比较深。3)Spark中的数据倾斜Spark中的数据倾斜,包括Spark Streaming和Spark Sql,表现主要有下面几种:原创 2021-09-11 08:00:52 · 233 阅读 · 0 评论 -
Kafka单条日志传输大小探究
Kafka对于消息体的大小默认为单条最大值是1M但是在我们应用场景中,常常会出现一条消息大于1M,如果不对Kafka进行配置。则会出现生产者无法将消息推送到Kafka或消费者无法去消费Kafka里面的数据,这时我们就要对Kafka进行以下配置:server.propertiesreplica.fetch.max.bytes: 1048576 broker可复制的消息的最大字节数, 默认为1Mmessage.max.bytes: 1000012 kafka 会接收单个消息size的最大限制, 默认为原创 2021-09-11 07:56:35 · 2724 阅读 · 0 评论 -
数据挖掘的流程
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的,有效的,可实用的信息,并使用这些信息做出决策或丰富知识。数据挖掘环境示意图如图 3-13 所示。数据挖掘的流程大致如下:1.问题定义在开始数据挖掘之前,最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求。缺少了背景知识,就不能明确定义要解决的问题,就不能为挖掘准备优质的数据,也很难正确地解释得到的结果。要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,即决定到底想干什么。2.建立数据挖掘库要进行数据挖掘必须收集要挖掘的原创 2021-09-07 08:31:08 · 5184 阅读 · 0 评论 -
常用的数据挖掘技术
常用的数据挖掘技术包括关联分析、序列分析、分类、预测、聚类分析及时间序列分析等。1.关联分析关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是事件发生的概率和条件概率应该符合一定的统计意义。对于结构化的数据,以客户的购买习惯数据为例,利用关联分析,可以发现客户的关联购买需要。例如,一个开设储蓄账户的客户很可能同时进行债券交易和股票交易,购买纸尿裤的男顾客经常同时购买啤酒等。利用这种知识可以采取积极原创 2021-09-07 08:22:47 · 3482 阅读 · 0 评论 -
什么是数据挖掘
数据挖掘(Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,它们是海量数据搜集、强大的多处理器计算机和数据挖掘算法。从技术角度来看,数据挖掘就原创 2021-09-05 23:46:41 · 3220 阅读 · 0 评论 -
数据仓库的实现方法
数据仓库的特性决定了数据仓库的设计不同于传统的数据库设计方法。数据仓库系统的原始需求通常不是很明确,并且需求仍在不断变化、增加,所以,数据仓库的建立是一个过程,从建立简单的基本框架着手,不断丰富和完善整个系统。这一过程将由以下几部分构成:需求分析、概念模型设计、逻辑模型设计、物理模型设计和数据仓库生成。从整体的角度来看,数据仓库的实现方法主要有自顶向下法、自底向上法和联合方法。1.自顶向下法在该方法中,首先应找出数据仓库解决方案所要满足的商业需求,把商业需求视为实现数据仓库的首要任务。数据仓库是一种功原创 2021-09-05 23:42:28 · 1438 阅读 · 0 评论 -
数据仓库的架构
(1)数据源。是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于 RDBMS(关系型 DBMS)中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。(2)数据的存储与管理。是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据.原创 2021-09-05 23:38:07 · 2730 阅读 · 0 评论 -
什么是数据仓库
著名的数据仓库专家 W.H.Inmon 在《Building the Data Warehouse》一书中将数据仓库定义为:数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。1.面向主题的操作型数据库的数据组织面向事务处理任务(面向应用),各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。例如,一个保险公司原创 2021-09-05 23:33:14 · 272 阅读 · 0 评论 -
利用Flink实现市场营销商业指标统计分析
随着智能手机的普及,在如今的电商网站中已经有越来越多的用户来自移动端,相比起传统浏览器的登录方式,手机APP成为了更多用户访问电商网站的首选。对于电商企业来说,一般会通过各种不同的渠道对自己的APP进行市场推广,而这些渠道的统计数据(比如,不同网站上广告链接的点击量、APP下载量)就成了市场营销的重要商业指标。下面示例:APP市场推广统计 - 分渠道封装数据的JavaBean类package com.mischen.it.entity;import lombok.AllArgsConstructo原创 2021-09-02 23:53:26 · 233 阅读 · 0 评论