flume与kafka应用场景解析 今天也要努力学习flume与kafka是同级的一个消息传输通道:但是有各自的定位1:kafka定位消息队列,它可以有许多的生产者和消费者,并可以共享一个主题topic队列。而flume是定位数据传输,相比下,flume是一个专用工具被设计为旨在往HDFS,HBASE发送数据。它对H...
redis持久化方式 redis持久化的几种方式1、前言Redis是一种高级key-value数据库。它跟memcached类似,不过数据可以持久化,而且支持的数据类型很丰富。有字符串,链表,集 合和有序集合。支持在服务器端计算集合的并,交和补集(difference)等,还支持多种排序功能。所以Redis也可以被看成是一个数据结构服务 器。Redis的所有数据都是保存在内存中,然后不定期的通过异步方式保存到...
hive分层设计详解 今天也要努力学习源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。细节层(DW):为数据仓库层,DW 层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的...
抽象类与接口的详解 今天也要努力学习抽象类是什么:抽象类不能创建实例,它只能作为父类被继承。抽象类是从多个具体类中抽象出来的父类,它具有更高层次的抽象。从多个具有相同特征的类中抽象出一个抽象类,以这个抽象类作为其子类的模板,从而避免了子类的随意性。(1) 抽象方法只作声明,而不包含实现,可以看成是没有实现...
MapReduce的map数量控制详解 今天也要努力学习在MapReduce过程中默认情况下是一个block块对应一个切片,一个切片对应一个map的,但是事实上map的数量应该是由具体的业务场景来决定的(一个块中对应了多行数据的情况下,为了提升性能可以考虑适当提高map的数量,而在有些情况比解码操作要求文件必须达到某个值时就应该考虑...
Hive执行sql时的工作流程详解 今天也要努力学习简单的说下hive:hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转化为Mapreduce任务进行运行。hive实现:hive是基于Hadoop的一个数据仓库工具, 由Driver组...
hadoop中重要的配置文件详解 今天也要努力学习1.slaves 2.core-site.xml 3.hdfs-site.xml4.mapred-site.xml:(注意要将mapred-site.xml.template重命名为 .xml的文件)5.Yarn-Site.xml ...
大数据端口详解汇总 今天也要努力学习常见端口汇总:Hadoop: 50070:HDFS WEB UI端口 8020 : 高可用的HDFS RPC端口 9000 : 非高可用的HDFS RPC端口 8088 : Yarn 的WEB UI 接口 8485 : JournalN...
常用且有用的sql练习(还在更新中。。。) 今天也要努力学习sql语句的掌握对于从事数据工作或者开发工作又或者是无关人员都是非常重要的 ,因为多掌握一门技术你就有机会做更多的事,哈哈。我练习的数据库是mysql(数据库都是大同小异的) 提供练习的数据: --学生表CREATE TABLE `Student`( `s_id` V...
zookeeper部署奇数台以及脑裂问题解析 今天也要努力学习 官方文档是这么解释zookeeper的:它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。 一:为什么zookeepe配置为奇数台?...
SparkOnYarn的好处 今天也要努力学习开发上我们选择local[2]模式生产上跑任务Job,我们选择Spark On Yarn模式 ,将Spark Application部署到yarn中,有如下优点:1.部署Application和服务更加方便只需要yarn服务,包括Spark,Storm在内的多种应用程序不要要自带服...
Scala闭包详解 今天也要努力学习闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。如下面这段匿名的函数:val multiplier = (i:Int) => i * 10 函数体内有一个变量 i,它作为函数的一个参数。如下...
关于贝叶斯算法的学习 今天也要努力学习简介贝叶斯定理是18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出得重要概率论理论。以下摘一段 wikipedia 上的简介: 所谓的贝叶斯定理源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之...
Kafka+SparkStreaming整合详解 今天也要努力学习SparkStreaming+Kafka1.SpringStreaming+Kafka 接受数据和发送数据(1)SparkStreaming 接受kafka方式基于Received的方式 基于DirectKafkaStreamingDirectKafkaStreaming...
spark-kryo序列化方式 今天也要努力学习在Spark中,主要有三个地方涉及到了序列化:在算子函数中使用到外部变量时,该变量会被序列化后进行网络传输。 将自定义的类型作为RDD的泛型类型时(比如JavaRDD<SXT>,SXT是自定义类型),所有自定义类型对象,都会进行序列化。因此这种情况下,也要求自定义的类必须实现Seria...
自定义累加器代码解析 今天也要努力学习 package com.bjsxt.scalaspark.core.examplesimport org.apache.spark.util.AccumulatorV2import org.apache.spark.{SparkConf, SparkContext}/** ...
map与flatmap的区别 今天也要努力学习def func_map(): data = ["hello world", "hello fly"] data_rdd = sc.parallelize(data) map_rdd = data_rdd.map(lambda s: s.split(" ")) ...
SparkSQL创建dataframe的方式大全 今天也要努力学习一:通过读取json格式的文件创建dataframe:package com.bjsxt.scalaspark.sql.DataSetAndDataFrameimport org.apache.spark.sql.{DataFrame, SparkSession}/** ...
Spark内存管理详解 Spark内存管理Spark执行应用程序时,Spark集群会启动Driver和Executor两种JVM进程,Driver负责创建SparkContext上下文,提交任务,task的分发等。Executor负责task的计算任务,并将结果返回给Driver。同时需要为需要持久化的RDD提供储存。Driver端的内存管理比较简单,这里所说的Spark内存管理针对Executor端的内存管理。...
SaprkShuffle详解 今天也要努力学习SparkShuffle1.SparkShuffle概念reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的...