关于HDFS的一些总结 HDFS是Hadoop大数据生态圈里重要的一部分,它主要用来进行文件存储,在数仓中,进行用户行为数仓建设时,也主要用来存储日志数据,接下来我们对其进行总结介绍。HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。...
关于Yarn的一些个人总结 在前面我们可以得出Yarn是Hadoop生态圈中一个重要得组成部分,主管资源管理,但是具体是如何进行资源管理的,却是需要进行探索的事,它又哪几部分组成,又由什么演变而来,各部分又有什么作用,它的产生又带来了哪些好处。Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。..
有关Flink的一些个人总结(是什么-用来做什么-有什么优势-为什么选它-解决了什么问题) 在大数据技术日益发展的今天,涌现出越来越多性能优异的组件,其中Spark和flink是非常重要的部分,尤其是实时任务越来越重要,在此对Flink一些功能特性,包括组成,应用以及优缺点进行相应的总结Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,提供支持流处理和批处理两种类型应用的功能,现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型:流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理。...
Hbase组件的一些相关知识 在进行大数据开发等相应应用中,除了一些常用的大数据组件,利用Hive外,也有一些其他类型的组件,比如专属于大数据领域的Hbase开源数据库,在此对其进行了相应的总结。HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。...
Hive组件相关知识点总结 在搭建数据仓库时,Hive组件在其中发挥了非常关键的作用,我们知道Hive是一个基于Hadoop的重要数据仓库工具,但具体如何应用则需要我们进一步进行探索。hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。...
Spark一些个人总结 随着大数据技术的发展,一些更加优秀的组件被提了出来,比如现在最常用的Spark组件,基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理,以及其在大数据开发中的重要作用。...
flume组件相关总结 在进行大数据开发过程中,flume是一个比较重要的组件,我们知道它是和日志采集有关的,但是具体如何对日志进行采集,在这里我们对其进行相应的总结。flume 是由 cloudera 软件公司产出的可分布式日志收集系统,后与 2009 年被捐赠了 apache 软件基金会,为hadoop 相关组件之一。......
Spark快速入门 在学习大数据组件中,Spark是一个非常重要的部分,但由于项目因素,没有对Spark进行使用过,Spark在机器学习算法以及后端开发中都有比较多的应用,这里对Spark进行一些总结。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。...
Sql的一些总结三(来源于MySQL必知必会) 文章目录前言一、创建高级联结使用表别名2.使用不同类型的联结1.自联结2.自然联结3.外部联结4.使用带聚集函数的联结5.使用联结和联结条件总结前言在使用数据库SQL时,除了一些对表进行查询操作的函数,对于数据表联合求解的一些函数也比较重要。一、创建高级联结使用表别名一般用as对某些数据起别名,其中比较重要的函数如下:as:selectconcat(Rtrim(vend_name),‘(’,Rtrim(vend_country),‘)’)as vend_title from vendors o
必要的sql总结二(MySQL必知必会) 文章目录一、日期和时间处理函数二、汇总数据三、分组数据总结一、日期和时间处理函数1.AddDate():增加一个日期(天、周等)2.AddTime():增加一个时间(时、分等)3.CurDate():返回当前日期4.CurTime():返回当前时间5.Date():返回日期时间的日期部分6.DateDiff():计算两个日期之差7.Date_Add():高度灵活的日期运算函数8.Date_Format():返回一个格式化的日期或事件串9.Day():返回一个日期的天数部分10.Day
必要的sql函数总结(MySQL必知必会) 文章目录前言一、求列的一些函数二、过滤数据三.创建计算字段四.文本处理函数总结前言在进行SQL学习过程中,牛客网的学习比较零散,难以泛用,所以找到一本比较合适的书籍《MySQL必知必会》,在此书中对一些必要的SQL函数进行了相应的总结。一、求列的一些函数1.单个列:select prod_name from products2.多个列:select prod_id,prod_name,prod_price from products3.全部:select* from products4.去
Flink之用户行为分析之两条流的订单交易匹配 文章目录订单交易匹配总结订单交易匹配对于订单支付事件,用户支付完成其实并不算完,我们还得确认平台账户上是否到账了。而往往这会来自不同的日志信息,所以我们要同时读入两条流的数据来做合并 处 理 。 这 里 我 们 利 用 connect 将两 条 流 进 行 连 接 , 然 后 用 自 定 义 的CoProcessFunction 进行处理。case class OrderEvent( orderId: Long, eventType: String, txId: String, eventTime:
Flink电商用户行为分析之市场营销商业指标分析 文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言在进行PV以及UV统计之后,作为电商应用,其市场营销商业提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport s
Zookeeper(分布式协调服务) 目录一、Zookeeper是什么?二、Zookeeper角色1.Leader2.Follower3.Observer三、ZAB协议四、ZAB协议4阶段1.Leader election(选举阶段)2.Discovery(发现阶段)3.Synchronization(同步阶段)4.Broadcast(广播阶段)总结一、Zookeeper是什么?Zookeeper 是一个分布式协调服务,可用于服务发现,分布式锁,分布式领导选举,配置管理等。Zookeeper 提供了一个类似于 Linux 文件系统的树形
JVM的一些总结(二) 文章目录前言一、JVM运行时内存1.新生代2.老年代3.永久代二、垃圾回收机制1.确定垃圾2.标记清除算法3.复制算法4.标记整理算法5.分代收集算法总结前言JVM的GC机制是非常重要的一部分,在此我们对GC机制进行一些总结。一、JVM运行时内存Java 堆从 GC 的角度还可以细分为: 新生代(Eden 区、From Survivor 区和 To Survivor 区)和老年代。1.新生代是用来存放新生的对象。一般占据堆的 1/3 空间。由于频繁创建对象,所以新生代会频繁触发MinorGC
做数仓项目所遇到的一些问题 前言在项目实际运行中,并不一定会像视频一样运行那么顺利,总会遇到一些大大小小的问题,而这些问题可能才是工作中最大可能遇到的,这里对部分问题进行一些总结。一、flume采集数据不到hdfs上flume to kafka配置文件,粗心把a1.sources.r1.filegroups.f1的filegroups漏掉了,第一个拦截器api的parse写成parsearray二、hive用spark引擎的时候运行insert sql的时候报错连接不上spark客户端代码如下(示例):总结提示:这里
JVM的一些总结(一) 前言在技术栈学习过程中,尤其是Java后台开发岗以及大数据岗,JVM都是绕不过去的一道关卡,这里主要是对JVM的一些个人学习感想,尤其是面对就业的学习。提示:以下是本篇文章正文内容,下面案例可供参考一、JVM的由来所有的程序运行所需要的底层机器指令都只是有限的若干条,从大型的UNIX机器到桌面个人计算机,都是基于那些设计精良而优美的指令集。但是这些指令集之间互不相容,这就使得程序的移植变得非常困难,所需时间甚至超过了重新编写一遍的时间。于是虚拟机的概念出现了。Java虚拟机(JVM)在多个平台上