weixin_32229529-CSDN博客

原创 Docker相关

尚硅谷大数据技术之Kubernetes第1章环境准备1.1 组网需要在机房操作具体服务器，具体内容见下面视频：https://pan.baidu.com/s/1WRFfau1TwcC9iLoumHP6qA1.2 Raid磁盘阵列规划1.2.1 什么是Raid简单来说，RAID是一种把多块独立的磁盘按照不同的方式组合成一个磁盘组，从而提供比单个独立磁盘更高存储效率和更高安全性的技术。RAID的优势： 加快数据的存取速度，提升服务器的工作效率 提供了容错能力，数据安全性提高 在提高

2020-06-05 07:39:49 3337

原创 MySQL高级

一、MySQL简介1.什么是Mysql MySQL是一个关系型数据库管理系统，由瑞典MySQL AB公司开发，目前属于Oracle公司。 Mysql是开源的，可以定制的，采用了GPL协议（允许定制），你可以修改源码来开发自己的Mysql系统。 (协议决定了产品的特点) MySQL使用标准的SQL数据语言形式。 Mysql可以允许于多个系统上，并且支持多种语言。这些编程语言包括...

2020-06-05 07:39:25 491

原创 K8S

第1章环境准备1.1 组网需要在机房操作具体服务器，具体内容见下面视频：https://pan.baidu.com/s/1WRFfau1TwcC9iLoumHP6qA1.2 Raid磁盘阵列规划1.2.1 什么是Raid简单来说，RAID是一种把多块独立的磁盘按照不同的方式组合成一个磁盘组，从而提供比单个独立磁盘更高存储效率和更高安全性的技术。RAID的优势： 加快数据的存取速度，提升服务器的工作效率 提供了容错能力，数据安全性提高 在提高性能和保证数据安全的基础上合理利用磁盘空

2020-06-05 07:36:40 2562

原创 Shell

大数据程序员为什么要学习Shell呢？（脚本开发）1）需要看懂运维人员编写的Shell程序。2）偶尔会编写一些简单Shell程序来管理集群、提高开发效率。第2章 Shell解析器（1）Linux提供的Shell解析器有：[shell@hadoop101 ~]$ cat /etc/shells/bin/sh/bin/bash（常用解析器）/sbin/nologin/bin/dash...

2020-05-05 10:59:12 171

原创正则表达式

正则表达式语法字符说明\ 将下一字符标记为特殊字符、文本、反向引用或八进制转义符。例如，“n"匹配字符"n”。"\n"匹配换行符。序列"\\“匹配”"，"\(“匹配”("。^ 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性，^ 还会与"\n"或"\r"之后的位置匹配。$ 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline ...

2020-05-05 10:57:53 242

原创 Hbase

1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2 HBase数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像是一个multi-dimensional map。1.2.1 HBase逻辑结构1.2.2 HBase物理存储结构1.2.3 数据...

2020-05-05 10:56:44 394

原创 kylin

1.1 Kylin定义==>雪花模型Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.2 Kylin架构架构分两层：上面分析 // 下面计算OLAP Cube：多维数据集 HBase读写速度很快特点...

2020-05-05 09:55:02 352

原创 oozie

Oozie英文翻译为：驯象人。一个基于工作流引擎的开源框架，由Cloudera公司贡献给Apache，提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。主要用于定时调度任务，多任务可以按照执行的逻辑顺序调度。第2章 Oozie的功能模块介绍2.1模块 ==》实际上对应的3个 xml的文件Workflow ：...

2020-05-05 09:52:08 224

原创 Azkaban

1.1 什么是AzkabanAzkaban是由Linkedin公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的key:value对的方式，通过配置中的Dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。==》Workflow:先...

2020-05-05 09:49:52 851

原创 sqoop

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快...

2020-05-05 09:47:59 254

原创 Flume

1.1 Flume定义Flume是Cloudera（云纪元（公司名））提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。Flume，实时读取本地磁盘的数据==》flume是步署在日志产生的位置，本地磁盘，1.2 Flume基础架构Flume组成架构如图1-1所示：图1-1 Flume组成架构source收集采集数据==》chann...

2020-05-05 09:43:19 386

原创 kafka

1.1定义Kafka是一个分布式的基于发布/订阅模式的消息队列，主要应用于大数据实时处理领域。离线数仓中也用到。1.2 消息队列（Message Queue）1.2.1 传统消息队列的应用场景注册流程的案例分析:==》发短信比较慢(1) 同步处理，只有一个线程，发送短信后响应注册；对于并发量大的不适用；（2）异步处理：把请求写到队列里面，异步线程发送短信具体作用：异步，消峰，解...

2020-05-05 09:39:28 555

原创 ES

1.1 Elasticsearch 是什么Elasticsearch 是一个基于 Apache Lucene™ 的开源搜索引擎。无论在开源还是专有领域，Lucene 可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。主要特点:分布式的实时文件存储，每个字段都被索引并可被搜索分布式的实时分析搜索引擎–做不规则查询可以扩展到上百台服务器，处理 PB 级结构化或非结构化数据E...

2020-05-05 09:33:48 365

原创 Spark

1.1 什么是 Spark ：传输=》处理 =》储存Spark 是一个快速(基于内存), 通用, 可扩展的集群计算引擎并且 Spark 目前已经成为 Apache 最活跃的开源项目, 有超过 1000 个活跃的贡献者.历史（mr慢，也不能迭代计算）2009 年，Spark 诞生于 UC Berkeley(加州大学伯克利分校, CAL) 的 AMP 实验室, 项目采用 Scal...

2020-05-05 09:19:09 501

原创 Scala

尚硅谷大数据技术之Hive(作者：尚硅谷大数据研发部)版本：V1.3第1章 Hive入门1.1 什么是Hive===》数据分析，不存东西，要与mysql区分Hive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序所有的MR模...

2020-05-05 09:13:52 297

原创 Hive

尚硅谷大数据技术之Hive(作者：尚硅谷大数据研发部)版本：V1.3第1章 Hive入门1.1 什么是Hive===》数据分析，不存东西，要与mysql区分Hive：由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序所有的MR模...

2020-05-05 09:07:45 511

原创 MapReduce

1.1 MapReduce定义（分两个阶段，一个Map阶段，一个reduce阶段）1.2 MapReduce优缺点1.2.1 优点（更专注于业务逻辑，分布式程序与串行程序）优点：适合PB级以上的数据（庞大的数据），离线计算：数据是静态的，不变的1.2.2 缺点1.3 MapReduce核心思想在大数据处理中，DAG计算常常指的是将计算任务在内部分解成为若干个子任务，将这些子任务之间的...

2020-05-05 09:05:49 380

原创 HDFS

1.1 HDFS产出背景及定义(适合一次写入，多次读出，不能修改文件，最后只能追加)1.2 HDFS优缺点（可以自动恢复，副本是存放在不同的机器上，同一个节点只能存一个副本）这里的机器值得是服务器说明：比较害怕小文件，因为HDFS用块的方式存储数据，而每一个块在namenode中都有一个元数据，元数据又存储在内存中的1.3 HDFS组成架构热备：不是事实备份，second主要是帮namen...

2020-05-05 09:01:21 318

原创 Hadoop(1)

2.3 Hadoop三大发行版本（有几个版本，要有个常识）Hadoop三大发行版本：Apache、Cloudera、Hortonworks。Apache版本最原始（最基础）的版本，对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。Apache Hadoop官网地址：http://hadoop.apache.org/releases.htm...

2020-05-05 08:57:31 325

weixin_32229529的博客