大数据基础
No_Game_No_Life_
这个作者很懒,什么都没留下…
展开
-
Hadoop是小象——Hadoop集群安装配置
所需软件 Linux所需软件包括: JavaTM1.5.x,必须安装,建议选择Sun公司发行的Java版本(以前安装过)。 ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。(一般默认CentOS已经安装了OpenSSH,即使你是最小化安装也是如此,所以不用安装。) 另外主机和虚拟机Ping不通的原因如下: https://blog.csdn.n...原创 2019-02-28 16:09:02 · 2251 阅读 · 0 评论 -
Spark一路火花带闪电——Spark底层原理介绍
文章目录Spark计算引擎原理1.1 术语1.1.1 Application:Spark应用程序1.1.2 Driver:驱动程序1.1.3 Cluster Manager:资源管理器1.1.4 Executor:执行器1.1.5 Worker:计算节点1.1.6RDD:弹性分布式数据集1.1.7 DAGScheduler:有向无环图调度器1.1.8 TaskScheduler:任务调度器1.1....原创 2019-03-29 13:17:40 · 3477 阅读 · 0 评论 -
Azkaban的囚徒——Azkaban安装和介绍
文章目录Azkaban简介Azkaban安装 Azkaban简介 为什么需要工作流调度器? 1、一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等 2、各任务单元之间存在时间先后及前后依赖关系 3、为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 简单的任务调度:直接使用 linux 的 cr...原创 2019-04-22 14:53:18 · 2217 阅读 · 0 评论 -
Azkaban的囚徒——Azkaban运行模式和流
文章目录Azkaban运行模式Azkaban运行Azkaban 流 Azkaban运行模式 在3.x版本里,提供了3种运行模式 the stand alone “solo-server” mode standalone模式 the heavier weight two server mode 两个server的模式 distributed multiple-executor mode 分布式(多...原创 2019-04-22 15:57:17 · 2731 阅读 · 1 评论 -
Spark一路火花带闪电——Accumulator & Broadcast
文章目录Accumulator累加器Accumulator简介陷阱及解决办法Broadcast广播变量 Accumulator累加器 Accumulator简介 Accumulator是spark提供的累加器。在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark Strea...原创 2019-04-15 10:47:20 · 2144 阅读 · 0 评论 -
Spark一路火花带闪电——Spark踩坑记
文章目录踩坑记:版本号一定要正确!!!JDK一定要匹配。使用idea打包maven项目 踩坑记:版本号一定要正确!!!JDK一定要匹配。 我这里使用的是scala 2.11.12 和spark 2.4.1(不知道自己版本号的同学可以使用spark-shell,查看自己的版本号) 该版本号下,一定要使用jdk1.8,如果使用jdk1.7会出现低版本错误,使用jdk11或者jdk12会有高版本错误。...原创 2019-04-24 11:08:43 · 2101 阅读 · 0 评论 -
伸缩自如的ElasticSearch——请求体查询
文章目录空查询查询表达式查询方式match_allmatchmulti_matchrangeterm & termsexists 查询和 missing 查询组合多查询验证查询 空查询 GET /kibana_sample_data_flights_1/_search { } 只用一个查询字符串,你就可以在一个、多个或者 _all 索引库(indices)和一个、多个或者所有types中...原创 2019-05-20 10:55:09 · 1435 阅读 · 0 评论 -
伸缩自如的ElasticSearch——ElasticSearch-sql安装及使用
文章目录安装ElasticSearch-sql安装es-sql-site 安装ElasticSearch-sql 安装地址: ES-sql地址 注意安装版本要与ES版本一致(这里是6.7.1)。 安装完成后,解压。将解压后的文件夹放入ES的plugins文件夹下。 安装es-sql-site 安装地址: ES-sql-site地址 安装完成后,执行下面的命令: cd site-server np...原创 2019-05-20 17:30:53 · 657 阅读 · 0 评论 -
伸缩自如的ElasticSearch——通过bboss操作和访问elasticsearch模式
文章目录ClientUtil加载配置文件中的dsl来实现对es的操作模式所有不依赖dsl的功能,或直接接收dsl模式基本功能配置es查询dsl文档批量创建或者修改http api查询dsl动态脚本语法规范配置springboot ClientUtil bboss操作和访问elasticsearch提供两种模式,分别对应两个组件: RestClientUtil:通用组件,提供所有不依赖dsl的功...原创 2019-05-21 15:21:46 · 4589 阅读 · 0 评论 -
Spark一路火花带闪电——认识Spark
文章目录认识Apache Spark1.1 Spark是一个软件栈1.1.1 Spark Core1.1.2 Spark SQL1.1.3 Spark Streaming1.1.4 MLlib1.1.5 GraphX1.1.6 集群管理器1.2 Spark的用户和用途1.2.1 数据科学任务1.2.2 数据处理应用 认识Apache Spark 了解Spark 的最好办法莫过于了解相比于它的前辈M...原创 2019-03-27 14:01:33 · 2421 阅读 · 0 评论 -
Hadoop是小象——WordCount源码分析
WordCount 源码分析 WordCount 的源码一般是在下载的Hadoop安装包下的hadoop-1.2.1/src/examples/org/apache/hadoop/examples 里面有WordCount.java文件,你可以使用UltraEdit或者记事本打开。内容如下: package org.apache.hadoop.examples; import java.io.I...原创 2019-03-01 11:29:01 · 1625 阅读 · 0 评论 -
Hadoop是小象——MapReduce / HDFS原理解析
HDFS&MapReduce 有一箩筐(100根)胡萝卜,小象进食速度是1根/秒,那么吃完一箩筐需要100秒。怎么让这100根胡萝卜被吃的更快呢?有人说榨汁……算了(其实我们这里说的是硬盘数据的读出),所以如果我们有20头小象,每个箩筐只装5根胡萝卜,那么5秒就可以合计吃掉一箩筐的量。 似乎每只小象吃5根会吃不饱(也就是硬盘利用率只有5%),但是我们箩筐里可以不止放胡萝卜,我们可以放土豆,...原创 2019-02-26 17:43:31 · 1927 阅读 · 0 评论 -
Hadoop是小象——YARN / Split&Block
了解Hadoop架构 Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点。(特别适合写一次,读多次的场景) 其架构如下: HDFS: 分布式文件存储(可靠性由心跳机制和冗余提供) YARN: 分布式资源管理 MapReduce: 分布式计算 Others: 利用YARN的资源管理功能实现其他的数据处理方式 内部各个节点基本都是采用主从架构。 之前HDFS和MapRedu...原创 2019-02-27 10:39:46 · 1653 阅读 · 0 评论 -
Spark一路火花带闪电——Spark常用算子(参数及其返回值)探究
文章目录转化算子行动算子 转化算子 以数据Seq(1,2,3,3)为例子 map(f:T => U):RDD[U] 映射:将函数应用于RDD内的每个元素,将其返回值构成新的RDD rdd.map(_+1) >> 2,3,4,4 flatMap(f:T => U):RDD[U] 映射:将函数应用于RDD内的每个元素,将返回的迭代器的所有内容构成新的RDD,通常用来...原创 2019-04-04 16:04:12 · 2533 阅读 · 0 评论 -
Spark一路火花带闪电——Pair RDD常用算子(参数及其返回值)探究
文章目录转化算子未完待续 转化算子 以键值对集合{(1,2),(3,4),(3,6)}为例 RDD[U,T]注意下面的函数,对应U和T reduceByKey(f:(T,T) => T):RDD[T] 合并具有相同值的键 rdd.reduceByKey((x,y)=>x+y) >>(1,2)(3,10) groupByKey():RDD[Tuple(T, Iter...原创 2019-04-04 17:24:25 · 2200 阅读 · 0 评论 -
伸缩自如的ElasticSearch——数据库索引原理
文章目录引言B/B+ Tree聚集索引非聚集索引覆盖索引 引言 使用索引很简单,只要能写创建表的语句,就肯定能写创建索引的语句,要知道这个世界上是不存在不会创建表的服务器端程序员的。然而, 会使用索引是一回事, 而深入理解索引原理又能恰到好处使用索引又是另一回事,这完全是两个天差地别的境界(我自己也还没有达到这层境界)。很大一部份程序员对索引的了解仅限于到“加索引能使查询变快”这个概念为止。那么思...原创 2019-05-17 10:36:40 · 729 阅读 · 0 评论