大-数据
草鱼狂飙
这个作者很懒,什么都没留下…
展开
-
辨析BI、数据仓库、数据湖和数据中台内涵及差异点
一 数据仓库数据仓库平台逐步从BI报表为主到分析为主、到预测为主、再到操作智能为目标。图1.数据仓库发展阶段划分商务智能(BI,Business Intelligence) 是一种以提供决策分析性的运营数据为目的而建立的信息系统。是属于在线分析处理:On Line Analytical Processing(OLAP),将预先计算完成的汇总数据,储存于魔方数据库(Cube) 之中,针对复杂的分析查询,提供快速的响应。在前10年,BI报表项目比较多,是数据仓库项目的前期预热项目(主要分析为主的阶段,是转载 2020-07-31 18:09:15 · 363 阅读 · 0 评论 -
Spark动态资源分配
Spark中,所谓资源单位一般指的是executors,和Yarn中的Containers一样,在Spark On Yarn模式下,通常使用–num-executors来指定Application使用的executors数量,而–executor-memory和–executor-cores分别用来指定每个executor所使用的内存和虚拟CPU核数。其实从Spark1.2之后,对于On Yar...原创 2019-10-09 17:48:52 · 536 阅读 · 0 评论 -
Spark-Yarn开启日志聚集服务
在yarn模式下,spark作业运行相关的executor和ApplicationMaster都是运行在yarn的container中的一个作业运行完了以后,yarn有两种方式来处理spark作业打印出的日志第一种是聚合日志方式(推荐,比较常用)这种方式的话,顾名思义,就是说,将散落在集群中各个机器上的日志,最后都给聚合起来,让我们可以统一查看如果打开了日志聚合的选项,即yarn.log-...原创 2019-10-08 19:39:26 · 1221 阅读 · 0 评论 -
Spark 调度模式-FIFO和FAIR
Spark 调度模式-FIFO和FAIRSpark中的调度模式主要有两种:FIFO和FAIR。默认情况下Spark的调度模式是FIFO(先进先出),谁先提交谁先执行,后面的任务需要等待前面的任务执行,后面的任务需要等待前面的任务执行。而FAIR(公平调度)模式支持在调度池中为任务进行分组,不同的调度池权重不同,任务可以按照权重来决定执行顺序。Spark的调度模式可以通过spark.schedu...原创 2019-10-08 19:18:56 · 1029 阅读 · 0 评论 -
SparkSql中的repartition 与 coalesce
SparkSql的repartition和coalesceSparkSql 写hive小文件后记repartition(numPartitions:Int)和coalesce(numPartitions:Int,shuffle:Boolean=false)作用:对RDD的分区进行重新划分,repartition内部调用了coalesce,参数shuffle为true例:RDD有N个分区,需要...转载 2019-03-22 10:33:23 · 4072 阅读 · 0 评论 -
Sqoop安装和简单的使用
下载官网dowload http://sqoop.apache.org/安装解压到自己规定的目录tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 配置环境变量:#sqoopexport HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*:$HIVE_HOME/confexport SQ...原创 2019-02-27 09:56:50 · 134 阅读 · 0 评论 -
消息队列ActiveMQ,RabbitMQ,RocketMQ,Kafka性能,优缺点对比。
特性 ActiveMQ RabbitMQ RocketMQ Kafka 单机吞吐量 万级,吞吐量比RocketMQ和Kafka要低了一个数量级 万级,吞吐量比RocketMQ和Kafka要低了一个数量级 10万级,Ro...转载 2019-02-20 10:50:35 · 1049 阅读 · 0 评论 -
Storm 综合
Storm 综合Storm中Nimbus、Supervisor以及Worker之间的关系首先storm是运行在多台服务器上的,每一台服务器我们称之为一个节点。【nimbus进程】storm集群工作的全局指挥官。通过thrift接口,监听并接收client对topology的submit, 将topology代码保存到本地目录/nimbus/stormdist/下为client提交的to...转载 2019-02-19 10:31:08 · 127 阅读 · 0 评论 -
Kafka的message存储数据结构
引言Kafka中的Message是以topic为基本单位组织的,不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的),每个partition存储一部分Message。借用官方的一张图,可以直观地看到topic和partition的关系。partition是以文件的形式存储在文件系统中,比如,...转载 2019-02-28 11:12:46 · 439 阅读 · 0 评论 -
Redis单机版迅速安装
下载安装编译最新安装参考:https://redis.io/download$ wget http://download.redis.io/releases/redis-5.0.3.tar.gz$ tar xzf redis-5.0.3.tar.gz$ cd redis-5.0.3$ make二进制已经编译成功到src目录。开启服务端$ src/redis-server开启客...原创 2019-02-27 14:52:31 · 164 阅读 · 0 评论 -
Lucene、solr以及elasticsearch之间的区别和联系
首先分别说明三者的概念:Lucene是一套信息检索工具包,并不包含搜索引擎系统,它包含了索引结构、读写索引工具、相关性工具、排序等功能,因此在使用Lucene时仍需要关注搜索引擎系统,例如数据获取、解析、分词等方面的东西。而solr和elasticsearch都是基于该工具包做的一些封装。Solr是一个有HTTP接口的基于Lucene的查询服务器,封装了很多Lucene细节,自己的应用可以直接...转载 2019-02-21 13:54:54 · 504 阅读 · 2 评论