大数据
exklin
hello
展开
-
Mac 环境 Hadoop 提交 job 报错 /bin/bash: /bin/java: No such file or directory
Mac 环境 Hadoop 提交 job 报错 /bin/bash: /bin/java: No such file or directory➜ hadoop-2.9.2 bin/hadoop jar /Users/leone/Documents/hadoop-wc.jar com.leone.bigdata.hadoop.mr.wc.MrHelloWord /data/words.log /output /Users/leone/Documents/hadoop-wc.jar20/06/20 20:原创 2020-06-20 21:43:29 · 828 阅读 · 0 评论 -
Flink快速入门
Flinkflink介绍什么是flink?Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提...原创 2019-03-02 09:28:53 · 2110 阅读 · 0 评论 -
Spark SQL详解
Spark SQLSpark SQL 核心概念什么是 Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率...原创 2019-03-03 22:28:30 · 2566 阅读 · 0 评论 -
Hadoop HA集群搭建
Hadoop HA什么是 HAHA是High Available缩写,是双机集群系统简称,指高可用性集群,是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。从而实现业务...原创 2019-03-11 12:10:16 · 2212 阅读 · 0 评论 -
CentOS下编译hadoop-2.9.2
编译 Hadoop系统环境系统: CentOS-7.3_x64protobuf: protobuf-2.5.0maven: maven-3.6.0hadoop: hadoop-2.9.2java: jdk1.8.0_131findbugs: findbugs-1.3.9准备工作# 安装编译需要的依赖库yum install -y lzo-devel zlib-devel au...原创 2019-03-21 12:25:04 · 2559 阅读 · 0 评论 -
Spark Steaming快速入门
Spark SteamingSpark Streaming 简介什么是Spark StreamingSpark Streaming使用Spark Core的快速调度功能来执行流分析。它以小批量方式提取数据,并对这些小批量数据执行RDD转换。此设计使得为批量分析编写的同一组应用程序代码可用于流分析,从而有助于轻松实现lambda体系结构。 然而,这种便利性带来的等待时间等于小批量持续时间。其他...原创 2019-03-17 23:24:28 · 2642 阅读 · 0 评论 -
Spark Structured Steaming实战
Spark Structured SteamingSpark Structured Streaming 简介什么是 Spark Structured StreamingStructured Streaming (结构化流)是一种基于 Spark SQL 引擎构建的可扩展且容错的 stream processing engine (流处理引擎)。您可以以静态数据表示批量计算的方式来表达 str...原创 2019-04-02 14:42:38 · 2254 阅读 · 0 评论 -
Ambari搭建
Ambari搭建Ambari简介Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zoo...原创 2019-04-12 10:42:46 · 1870 阅读 · 0 评论 -
Windows下编译 Hadoop
Windows下编译 Hadoop-2.9.2系统环境系统: Windows 10 10.0_x64maven: Apache Maven 3.6.0jdk: jdk_1.8.0_201ProtocolBuffer: portoc-2.5.0zlib: 1.2.3-libOpenSSL: 1_0_2rcmake: 3.14.3-win64-x64Cygwin: 2.897_x86...原创 2019-05-08 17:49:19 · 2077 阅读 · 0 评论 -
ubuntu下编译 Hadoop
Ubuntu 下编译 Hadoop-2.9.2系统环境系统: ubuntu-18.10-desktop-amd64maven: Apache Maven 3.6.0jdk: jdk_1.8.0_201ProtocolBuffer: portoc-2.5.0OpenSSL: OpenSSL 1.1.1cmake: cmake3.12.1hadoop: hadoop-2.9.2安装...原创 2019-05-13 21:07:29 · 1765 阅读 · 0 评论 -
Sqoop快速入门
SqoopSqoop 介绍什么是 SqoopSqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Had...原创 2019-02-25 14:34:43 · 2488 阅读 · 0 评论 -
Spark RDD 详解
Spark CoreRDD概述什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可...原创 2019-02-13 15:39:54 · 1766 阅读 · 1 评论 -
zookeeper入门
zookeeper是什么Apache ZooKeeper是Apache软件基金会的一个软件项目,他为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。ZooKeeper曾经是Hadoop的一个子项目,但现在是一个独立的顶级项目。ZooKeeper的架构通过冗余服务实现高可用性。因此,如果第一次无应答,客户端就可以询问另一台ZooKeeper主机。ZooKeeper节点将它们的数据存储...原创 2018-12-22 09:59:29 · 4259 阅读 · 0 评论 -
lucene 核心概念及入门
luceneLucene介绍及核心概念什么是LuceneLucene是一套用于全文检索和搜索的开放源代码程序库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程序接口,能够做全文索引和搜索,在Java开发环境里Lucene是一个成熟的免费开放源代码工具;就其本身而论,Lucene是现在并且是这几年,最受欢迎的免费Java信息检索程序库。lucene可以做什么L...原创 2018-12-29 09:19:42 · 1573 阅读 · 0 评论 -
Hive快速入门
hivehive简介和基本概念什么是hivehive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。最初,Hive是由Faceboo...原创 2019-01-05 14:53:43 · 4636 阅读 · 0 评论 -
kafka 核心概念及快速入门
kafkakafka 核心概念什么是kafkaKafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础设施来处理流式数据非常有价值。此外,Kafka可以通过Kafka Connect连接到外部系统(用...原创 2018-12-26 10:24:26 · 2591 阅读 · 0 评论 -
hadoop 核心概念及入门
HadoopHadoop背景什么是HADOOPHADOOP是apache旗下的一套开源软件平台HADOOP提供利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理,HADOOP的核心组件有:HDFS(分布式文件系统)、YARN(运算资源调度系统)、MAPREDUCE(分布式运算编程框架),广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈HADOOP产生背...原创 2019-01-11 09:32:19 · 2063 阅读 · 0 评论 -
Flume 核心概念及快速入门
flumeflume 简介及核心概念什么是flumeFlume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前是Apache的顶级项目。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。flume 优点1、可靠性当节点出现故障时,日志能够被传送到其他节点上...原创 2019-01-02 17:20:34 · 4610 阅读 · 0 评论 -
HBase核心原理基础入门
HBaseHBase 核心概念介绍什么是hbase?HBase是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的BigTable建模,实现的编程语言为 Java。它是Apache软件基金会的Hadoop项目的一部分,运行于HDFS文件系统之上,为 Hadoop 提供类似于BigTable 规模的服务。因此,它可以对稀疏文件提供极高的容错率。HBase在列上实现了BigTable论...原创 2019-01-24 08:38:41 · 1766 阅读 · 0 评论 -
ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
hbase 报错安装hbase2.0成功后启动hbase集群输入lsit,version,status均没有问题但是就是创建表有问题再网上查了各种资料重启hadoop,重启zookeper,同步时间都没有解决后来发现是我以前安装过hbase1.2.9所以在zookeeper的节点中存在hbase这个节点hbase集群启动的时候会读取这个目录中的数据导致2.0版本的hbase无法使用创建表命令创建...原创 2019-01-24 10:04:53 · 5332 阅读 · 1 评论 -
Redis 简介、安装、主从复制、哨兵、pub/sub、javaAPI
RedisRedis简介及原理什么是redisRedis是由意大利人Salvatore Sanfilippo开发的一款内存高速缓存数据库。Redis本质上是一种键值数据库,但是它在保持键值数据库简单快捷特点的同时,又吸收了部分关系型数库的优点。从而使它的位置处于关系数据库和键值数据库之间。Redis不仅能保存String类型的数据,还能保持lists类型(有序)和Sets类型(无序)的数据,...原创 2019-01-29 15:59:24 · 2023 阅读 · 0 评论 -
Spark快速入门
sparkspark背景什么是sparkSpark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Sp...原创 2018-12-07 17:46:16 · 1650 阅读 · 0 评论