大数据
文章平均质量分 90
金玉良缘2017
这个作者很懒,什么都没留下…
展开
-
大数据精选面试题160道
大数据精选面试题160道01、 Hive和数据库比较Hive 和数据库除了拥有类似的查询语言,再无类似之处。1)数据存储位置Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。2)数据更新Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的,3)执行延迟Hive 执行延迟较高。数据库的执行延迟较低。当然,这个是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive的并行计算显然能体现出优势。4)数据规模Hive支持很大规模的数原创 2021-07-12 18:08:48 · 2109 阅读 · 5 评论 -
Kylin大数据分析
1.概述1.1 Kylin是什么 Apache Kylin(Extreme OLAP Engine for Big Data)是一个开源的分布式分析引擎,为Hadoop等大型分布式数据平台之上的超大规模数据集通过标准SQL查询及多维分析(OLAP)功能,提供亚秒级的交互式分析能力。1.2 Kylin的由来 Apache Kylin,中文名麒麟,是Hadoop动物园的重要成员。...原创 2019-04-20 20:16:40 · 4808 阅读 · 0 评论 -
Kylin 集群搭建
1.环境说明1.1 版本选择1.2Kylin 安装与配置1.2.1 软件下载下载地址:https://archive.apache.org/dist/kylin/apache-kylin-2.3.2/1.2.2 解压tar -zxvf apache-kylin-2.3.2-bin-cdh57.tar.gz1.2.3 建立软连接ln -s apache-kylin-2.3.2-...原创 2019-04-20 20:11:36 · 1825 阅读 · 0 评论 -
Storm安装部署
原文摘自http://www.donghongchao.cn1.基础环境准备前提是安装好jdk,zookeeper这里不做描述2.安装storm下载安装包解压安装包tar -zxvf apache-storm-0.9.5.tar.gz -C /export/servers/ cd /export/servers/修改配置文件mv /export/servers/原创 2018-01-01 12:01:56 · 270 阅读 · 0 评论 -
spark基础入门
原文摘自http://www.donghongchao.cn1、spark概述spark是基于内存的一个计算框架,计算速度非常的快。这里面没有涉及到任何存储,如果想要处理外部的数据源,比如数据在HDFS上,此时我们就需要先搭建一个hadoop集群。2、spark的特点1、速度快(比mapreduce在内存中快100倍,比在磁盘中快10倍) (1)spark在处理的数据中原创 2018-01-07 20:41:38 · 494 阅读 · 0 评论 -
spark初级入门
原文摘自http://www.donghongchao.cn1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合. Dataset:一个数据集,简单的理解为集合,用于存放数据的Distributed:它的数据分布式存储,并且可以做分布式的计算Re原创 2018-01-07 20:44:32 · 409 阅读 · 0 评论 -
Scala基础入门(二)
http://www.donghongchao.cn1.数组1.1.数组 1.1.定长数组和变长数组 (1)定长数组定义格式: val arr=new Array[T] (数组长度) (2)变长数组定义格式: val arr = ArrayBuffer[T] () 注意需要导包:import scala.collection.mutable.ArrayBufferi原创 2018-01-06 12:59:30 · 757 阅读 · 0 评论 -
Scala基础入门 (一)
http://www.donghongchao.cn1.Scala概述什么是Scala Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。2.Scala编译器安装2.1、安装JDK(因为Scala是运行在JVM平台上的,所以安装Scala之前要安装JDK原创 2018-01-06 12:53:15 · 372 阅读 · 0 评论 -
Flink架构、原理与部署测试
Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全不相同的:流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效原创 2018-01-04 20:30:53 · 539 阅读 · 0 评论 -
Kafka集群搭建
1. 集群部署的基本流程下载安装包、解压安装包、修改配置文件、分发安装包、启动集群2.集群部署的基础环境准备安装前的准备工作(zk集群已经部署完毕)关闭防火墙 chkconfig iptables off && service iptables stop 3.解压安装包tar -zxvf kafka_2.11-1.0.0.tgz -C /export/servers/cd /export/原创 2017-12-31 12:40:53 · 284 阅读 · 0 评论 -
Hadoop之HDFS详解
******HDFS基本概念篇******1. HDFS前言l 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; l 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 l 重点概念:文件切块,副本存放,元数据 2. HDFS的概念和特原创 2017-10-28 14:28:40 · 562 阅读 · 0 评论 -
Hadoop之快速入门
1.分布式系统概述注:由于大数据技术领域的各类技术框架基本上都是分布式系统,因此,理解hadoop、storm、spark等技术框架,都需要具备基本的分布式系统概念 1.1 分布式软件系统(Distributed Software Systems)² 该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,子系统或模块之间通过网络通信进行协作,实现最终的整体功能² 比如分布原创 2017-10-28 14:06:54 · 376 阅读 · 0 评论