自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 Docker相关

尚硅谷大数据技术之Kubernetes第1章 环境准备1.1 组网需要在机房操作具体服务器,具体内容见下面视频:https://pan.baidu.com/s/1WRFfau1TwcC9iLoumHP6qA1.2 Raid磁盘阵列规划1.2.1 什么是Raid简单来说,RAID是一种把多块独立的磁盘按照不同的方式组合成一个磁盘组,从而提供比单个独立磁盘更高存储效率和更高安全性的技术。RAID的优势: 加快数据的存取速度,提升服务器的工作效率 提供了容错能力,数据安全性提高 在提高

2020-06-05 07:39:49 2878

原创 MySQL高级

一、MySQL简介1.什么是Mysql MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle公司。 Mysql是开源的,可以定制的,采用了GPL协议(允许定制),你可以修改源码来开发自己的Mysql系统。 (协议决定了产品的特点) MySQL使用标准的SQL数据语言形式。 Mysql可以允许于多个系统上,并且支持多种语言。这些编程语言包括...

2020-06-05 07:39:25 349

原创 K8S

第1章 环境准备1.1 组网需要在机房操作具体服务器,具体内容见下面视频:https://pan.baidu.com/s/1WRFfau1TwcC9iLoumHP6qA1.2 Raid磁盘阵列规划1.2.1 什么是Raid简单来说,RAID是一种把多块独立的磁盘按照不同的方式组合成一个磁盘组,从而提供比单个独立磁盘更高存储效率和更高安全性的技术。RAID的优势: 加快数据的存取速度,提升服务器的工作效率 提供了容错能力,数据安全性提高 在提高性能和保证数据安全的基础上合理利用磁盘空

2020-06-05 07:36:40 2424

原创 Shell

大数据程序员为什么要学习Shell呢?(脚本开发)1)需要看懂运维人员编写的Shell程序。2)偶尔会编写一些简单Shell程序来管理集群、提高开发效率。第2章 Shell解析器(1)Linux提供的Shell解析器有:[shell@hadoop101 ~]$ cat /etc/shells/bin/sh/bin/bash(常用解析器)/sbin/nologin/bin/dash...

2020-05-05 10:59:12 110

原创 正则表达式

正则表达式语法字符 说明\ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如,“n"匹配字符"n”。"\n"匹配换行符。序列"\\“匹配”","\(“匹配”("。^ 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与"\n"或"\r"之后的位置匹配。$ 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline ...

2020-05-05 10:57:53 146

原创 Hbase

1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2 HBase数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。1.2.1 HBase逻辑结构1.2.2 HBase物理存储结构1.2.3 数据...

2020-05-05 10:56:44 279

原创 kylin

1.1 Kylin定义==>雪花模型Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.2 Kylin架构架构分两层: 上面分析 // 下面计算OLAP Cube: 多维数据集 HBase读写速度很快特点...

2020-05-05 09:55:02 244

原创 oozie

Oozie英文翻译为:驯象人。一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务,多任务可以按照执行的逻辑顺序调度。第2章 Oozie的功能模块介绍2.1模块 ==》实际上对应的3个 xml的文件Workflow :...

2020-05-05 09:52:08 149

原创 Azkaban

1.1 什么是AzkabanAzkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的Dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。==》Workflow:先...

2020-05-05 09:49:52 603

原创 sqoop

Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快...

2020-05-05 09:47:59 154

原创 Flume

1.1 Flume定义Flume是Cloudera(云纪元(公司名))提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume,实时读取本地磁盘的数据==》flume是步署在日志产生的位置,本地磁盘 ,1.2 Flume基础架构Flume组成架构如图1-1所示:图1-1 Flume组成架构source收集采集数据==》chann...

2020-05-05 09:43:19 257

原创 kafka

1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。离线数仓中也用到。1.2 消息队列(Message Queue)1.2.1 传统消息队列的应用场景注册流程的案例分析:==》发短信比较慢(1) 同步处理,只有一个线程,发送短信后响应注册;对于并发量大的不适用;(2)异步处理: 把请求写到队列里面,异步线程发送短信具体作用: 异步,消峰,解...

2020-05-05 09:39:28 411

原创 ES

1.1 Elasticsearch 是什么Elasticsearch 是一个基于 Apache Lucene™ 的开源搜索引擎。无论在开源还是专有领域,Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。主要特点:分布式的实时文件存储,每个字段都被索引并可被搜索分布式的实时分析搜索引擎–做不规则查询可以扩展到上百台服务器,处理 PB 级结构化或非结构化数据E...

2020-05-05 09:33:48 314

原创 Spark

1.1 什么是 Spark :传输=》处理 =》储存Spark 是一个快速(基于内存), 通用, 可扩展的集群计算引擎并且 Spark 目前已经成为 Apache 最活跃的开源项目, 有超过 1000 个活跃的贡献者.历史 (mr慢,也不能迭代计算)2009 年,Spark 诞生于 UC Berkeley(加州大学伯克利分校, CAL) 的 AMP 实验室, 项目采用 Scal...

2020-05-05 09:19:09 339

原创 Scala

尚硅谷大数据技术之Hive(作者:尚硅谷大数据研发部)版本:V1.3第1章 Hive入门1.1 什么是Hive===》数据分析,不存东西,要与mysql区分Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序所有的MR模...

2020-05-05 09:13:52 199

原创 Hive

尚硅谷大数据技术之Hive(作者:尚硅谷大数据研发部)版本:V1.3第1章 Hive入门1.1 什么是Hive===》数据分析,不存东西,要与mysql区分Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序所有的MR模...

2020-05-05 09:07:45 393

原创 MapReduce

1.1 MapReduce定义(分两个阶段,一个Map阶段,一个reduce阶段)1.2 MapReduce优缺点1.2.1 优点(更专注于业务逻辑,分布式程序与串行程序)优点:适合PB级以上的数据(庞大的数据),离线计算: 数据是静态的,不变的1.2.2 缺点1.3 MapReduce核心思想在大数据处理中,DAG计算常常指的是将计算任务在内部分解成为若干个子任务,将这些子任务之间的...

2020-05-05 09:05:49 287

原创 HDFS

1.1 HDFS产出背景及定义(适合一次写入,多次读出,不能修改文件,最后只能追加)1.2 HDFS优缺点(可以自动恢复,副本是存放在不同的机器上,同一个节点只能存一个副本)这里的机器值得是服务器说明:比较害怕小文件,因为HDFS用块的方式存储数据,而每一个块在namenode中都有一个元数据,元数据又存储在内存中的1.3 HDFS组成架构热备:不是事实备份,second主要是帮namen...

2020-05-05 09:01:21 251

原创 Hadoop(1)

2.3 Hadoop三大发行版本(有几个版本,要有个常识)Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。Apache Hadoop官网地址:http://hadoop.apache.org/releases.htm...

2020-05-05 08:57:31 265

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除