大数据
JunMoXiaoPro
这个作者很懒,什么都没留下…
展开
-
再遇见之Hbase
1、主要内容 1、掌握Hbase相关概念 2、掌握Hbase集群搭建 3、掌握Hbase shell 命令的使用 4、掌握Hbase内部原理 5、掌握Hbase的寻址机制 6、掌握Hbase的rowkey设计 2、Hbase概述2.1 hbase是什么hbase是基于hdfs进行数据的存储,具有高可靠、高性能、列存储、可伸缩、实...原创 2019-03-14 09:04:36 · 313 阅读 · 0 评论 -
Kibana可视化
Kibana可视化设置加载数据在你开始之前:加载案例数据本段教程依赖如下数据集: 莎士比亚的所有著作,合适地解析成了各个字段:shakespeare.json。 随机生成的虚构账号数据:accounts.json 随机生成的日志文件:logs.jsonl 认识数据数据格式莎士比亚数据集由如下数据格式组织{ "line_id": INT...原创 2019-03-13 17:07:03 · 2760 阅读 · 1 评论 -
ElasticSearch简单使用
ElasticSearch简单使用首先我们谈几个公司,如雷贯耳的:百度、谷歌、维基百科;这些公司都有一个相似性就是门户网站,可以提供我们通过关键字搜索,然后快速的检索出我们想要的信息;【网页百度展示】比如我们检索传智播客,百度后台就会按照这个关键字进行查找(里面有搜索库,以及爬虫库),然后按照权重来进行从上打下的排序,给我们高亮的展示出现【京东或者淘宝展示】随便搜索东西,就会高...原创 2019-03-13 16:59:14 · 15936 阅读 · 2 评论 -
shell脚本实现一键启动集群的zookeeper和hadoop
因为我的集群是高可用的,所以基本上都是和zookeeper整合的。然而zookeeper的启动又需要一个机器一个机器的启动,非常麻烦。所以我就产生了写一个shell脚本来启动集群。不说废话,直接上脚本。#!/bin/bash#一键启动集群for i in {"hadoop01","hadoop02","hadoop03"};do echo "-----$1 $i zookeeper-...原创 2019-03-18 15:31:07 · 1746 阅读 · 0 评论 -
HBase的初步接触
下载HBasel 官网地址:http://hbase.apache.org/l 下载地址:http://mirrors.hust.edu.cn/apache/hbase/查看数据存储位置如果在hbase的配置文件hbase-site.xml中没有设置的话,数据存储在/tmp文件下,但是每次从新启动主机后tmp下的数据会丢失,所以单机模式只方便用来调试和开发hadoop与hbas...原创 2019-03-13 11:16:24 · 288 阅读 · 0 评论 -
搭建大数据平台的准备工作
1 网络原理1.1 桥接原理因为 虚拟机的linux系统的ip地址是固定的, 更换路由器后导致无法使用, 所以 不推荐使用1.2 NAT原理如果宿主电脑可以上网, 内部的虚拟机也可以上网就好了NAT原理本质上就是 虚拟机实现了交换机的功能, linux系统的IP地址就不会随宿主电脑的ip地址更改而更改推荐使用这种方式2 怎么使linux上网2.1 确保所有关...原创 2019-03-15 09:17:09 · 720 阅读 · 0 评论 -
Spark面试问题收集
Spark面试问题spark面试问题1、spark中的RDD是什么,有哪些特性 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的 Distributed:分布式,可以并行在集群计算 ...原创 2019-03-14 10:39:37 · 278 阅读 · 0 评论 -
Spark任务调度和资源分配
Spark任务调度和资源分配1、Spark调度模式 FIFO和FAIR Spark中的调度模式主要有两种:FIFO和FAIR。 默认情况下Spark的调度模式是FIFO(先进先出),谁先提交谁先执行,后面的任务需要等待前面的任务执行。 而FAIR(公平调度)模式支持在调度池中为任务进行分组,不同的调度池权重不同,任务可以按照权重来决定执行顺序。2、资源分配概述...原创 2019-03-14 10:28:03 · 882 阅读 · 0 评论 -
Spark的shuffle和原理分析
Spark的shuffle和原理分析1 、概述 Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量...原创 2019-03-14 10:26:17 · 304 阅读 · 0 评论 -
Spark的认识(四)
Spark的认识(四)1、本文内容 1、掌握SparkStreaming底层原理 2、掌握Dstream常用操作 3、掌握SparkStreaming整合flume 4、掌握SparkStreaming整合kafka 2、SparkStreaming概述2.1 什么是sparkStreaming Spark Streaming makes it...原创 2019-03-14 10:15:23 · 382 阅读 · 0 评论 -
Spark的认识(三)
Spark的认识(三)1、本文内容 1、掌握sparkSQL原理 2、掌握DataFrame和DataSet数据结构和使用方式 3、掌握sparksql代码开发 2、sparksql概述2.1 sparksql前世今生 shark是专门为spark设计的大数据仓库系统 shark与hive代码兼容,同时它也依赖于spark的版本 后期...原创 2019-03-14 10:05:17 · 459 阅读 · 0 评论 -
Spark的认识(二)
Spark的认识(二)1、主要内容 1、掌握RDD底层原理 2、掌握RDD常用的算子操作 3、掌握RDD的依赖关系 4、掌握RDD的缓存机制 5、掌握划分stage 6、掌握spark任务调度流程 2、RDD概述2.1 RDD是什么RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是S...原创 2019-03-14 09:26:53 · 340 阅读 · 0 评论 -
spark的认识(一)
spark的认识(一)1、主要内容 1、掌握spark相关概念 2、掌握搭建一个spark集群 3、掌握编写简单的spark应用程序 2、spark概述2.1 spark是什么 Apache Spark™ is a unified analytics engine for large-scale data processing. spark是一...原创 2019-03-14 09:08:00 · 736 阅读 · 1 评论