2021年01月_墨禹

原创 Scala入门系列(6)-Scala之三大流程控制语句

顺序控制程序从上到下逐行地执行，中间没有任何判断和跳转。分支控制让程序有选择的的执行(在scala中没有switch),分支控制有三种:单分支双分支多分支单分支基本语法：当条件表达式为ture 时，就会执行 { } 的代码。if (条件表达式) { 执行代码块 }object IfElse { def main(args: Array[String]): Unit = { val age = 17 if (age < 18) { prin

2021-01-28 19:19:22 230

原创 Scala入门系列(5)-Scala之运算符

运算符一个运算符是一个符号，用于告诉编译器来执行指定的数学运算和逻辑运算。Scala 含有丰富的内置运算符，包括以下几种类型：算术运算符关系运算符逻辑运算符位运算符赋值运算符算术运算符算术运算符(arithmetic)是对数值类型的变量进行运算的，在Scala程序中使用的非常多。注意事项：对于除号“/”，它的整数除和小数除是有区别的：整数之间做除法时，只保留整数部分而舍弃小数部分。例如：var x : Int = 10/3 ,结果是 3当对一个数取模时

2021-01-28 16:40:08 517

原创 Scala入门系列(4)-Scala变量及数据类型

变量概念变量是一种使用方便的占位符，用于引用计算机内存地址，变量创建后会占用一定的内存空间。基于变量的数据类型，操作系统会进行内存分配并且决定什么将被储存在保留内存中。因此，通过给变量分配不同的数据类型，你可以在这些变量中存储整数，小数或者字母。变量与常量变量：在程序运行过程中其值可能发生改变的量叫做变量。如：时间，年龄。常量：在程序运行过程中其值不会发生变化的量叫做常量。如：数值 3，字符’A’。变量声明基本语法var | val 变量名 [: 变量类型] = 变量值注意事项:声

2021-01-27 16:06:10 903

原创 Scala入门系列(3)-Scala基本语法及命名规范

注意事项Scala源文件以 “.scala" 为扩展名。Scala程序的执行入口是main()函数。Scala是大小写敏感的，这意味着标识Hello 和 hello在Scala中会有不同的含义。类名 - 对于所有的类名的第一个字母要大写方法名称 - 所有的方法名称的第一个字母用小写。Scala方法由一条条语句构成，每个语句后不需要分号(Scala语言会在每行后自动加分号)，这也体现出Scala的简洁性。如果在同一行有多条语句，除了最后一条语句不需要分号，其它语句需要分号。语言转义字符

2021-01-27 14:52:21 1402

原创 Scala入门系列(2)-Scala简介

概述定义官网地址Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言，并集成面向对象编程和函数式编程的各种特性。Scala之父Martin Odersky1980年，正在慕尼黑大学读本科的Martin第一次接触到编译器便为之痴迷，随即买了一台在当时称得上性能强悍的“便携式“电脑Osborne-1，在随后的日子里，Martin与一位大学好友Peter Sollich终日在一起研究如何为编程语言编写编译器。他们了解到一门新的编程语言Modula-2，发现该编程语

2021-01-27 13:15:49 387

原创 Spark入门系列(2)-Spark开发WorldCount入门案例

环境准备安装并配置Scala开发环境文档创建一个普通maven父项目，并创建子模块。添加scala库编写一个测试程序，检验环境添加pom <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</arti

2021-01-27 10:21:36 422

原创 Scala入门系列(1)-Scala开发环境搭建

简介官方网站Scala 是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在 Java 虚拟机上，并兼容现有的 Java 程序。Scala 源代码被编译成 Java 字节码，所以它可以运行于 JVM 之上，并可以调用现有的 Java 类库。...

2021-01-26 16:01:15 455

原创 Spark入门系列(1)-Spark简介

概述官网Spark 是加州大学伯克利分校 AMP（Algorithms，Machines，People）实验室开发的通用内存并行计算框架。Spark 在 2013 年 6 月进入 Apache 成为孵化项目，8 个月后成为 Apache 顶级项目。Spark 以其先进的设计理念，迅速成为社区的热门项目，围绕着 Spark 推出了 SparkSQL、SparkStreaming、MLlib 和 GraphX 等组件，逐渐形成大数据处理一站式解决平台。Spark and Hadoop发展历史Had

2021-01-26 15:15:39 294

原创 HBase入门系列(5)- HBase之JavaAPI操作详解

前言HBase 除了支持使用 Shell 客户端来操作，还提供了多种编程语言的接口，其中 Java API 是原生支持的，其它编程语言接口需要通过 Thrift 协议支持。HBase 官方代码包里含有原生访问客户端，由 Java 语言实现，相关的类在 org.apache.hadoop.hbase.client 包中，都是与 HBase 数据存储管理相关的 API。例如，若要管理 HBase，则用 Admin 接口来创建、删除、更改表；若要向表格添加数据或查询数据，则使用 Table 接口等。环境配

2021-01-26 13:21:15 1028

原创 HBase入门系列(4)- HBase读写流程详解

写数据流程图：Client 先访问 zookeeper。获取 hbase:meta 表位于哪个 Region Server。访问对应的 Region Server。获取 hbase:meta 表，根据读请求的namespace:table/rowkey，查询出目标数据位于哪个 Region Server 中的哪个 Region 中。将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache，方便下次访问。与目标 Region Server 进行

2021-01-25 19:43:20 343

原创 HBase入门系列(3)- HBase之Shell操作

基本命令# 进入Shell/opt/soft/hbase-1.6.0/bin./hbase shell# 帮助help# 所有表list# 所有命令空间list_namespace# 创建命名空间create_namespace 'test_ns'# 删除命名空间drop_namespace 'test_ns'操作表# 查看创建表的示例create# 创建表table_test，并指定列族create 'table_test','family01','family02'

2021-01-23 21:47:33 287 1

原创 HBase入门系列(2)- HBase架构+集群部署

基本架构HBase 的系统架构，包括客户端、ZooKeeper 服务器、HMaster 主服务器和 RegionServer。客户端客户端包含访问 HBase 的接口，是整个 HBase 系统的入口，使用者直接通过客户端操作 HBase。HDFSHDFS 为 HBase 提供最终的底层数据存储服务，同时为 HBase 提供高可用的支持。RegionServerRegionServer 主要负责响应用户的请求，向 HDFS 读写数据。RegionServer 是 HBase 中最核心的模块，其

2021-01-22 22:18:35 537 1

原创 Spring Cloud入门系列(1)- Spring生态体系发展史+全系框架介绍

前言Spring生态体系Spring FrameworkSpring Data JDBCSpring Data JPASpring Data LDAPSpring Data MongoDBSpring Data RedisSpring Data R2DBCSpring Data RESTSpring Data for Apache CassandraSpring Data for Apache GeodeSpring Data for Apache SolrSpring Data

2021-01-21 17:28:39 722

原创 Hive入门系列(5)-分区表+分桶表

分区表数据库分区是一种物理数据库设计技术，DBA和数据库建模人员对其相当熟悉。虽然分区技术可以实现很多效果，但其主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间。hive中的分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。基本操作准备数据# 准备三个数据文件，模

2021-01-14 10:33:38 347

原创 Hive入门系列(4)-DML基本操作

数据导入Loadhive提供了load命令，可以将数据文件直接导入进表中。语法：LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)]（1）load data:表示加载数据（2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表（3）inpath:表示加载数据的路径（4）ove

2021-01-13 10:36:19 418

原创 Hive入门系列(3)-Hive基本数据类型+DDL操作

Hive常见的数据类型定义数据类型是指列、存储过程参数、表达式和局部变量的数据特征，它决定了数据的存储格式，代表了不同的信息类型。定义数据字段的类型对你数据库的优化是非常重要的。分类Hive支持多种类型，大致可以分为：数值、时间、字符串、复合、其他类型。基本数据类型集合数据类型DDL创建库语法CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name　　[COMMENT database_comment]　　　　　　 //关于数据块

2021-01-09 22:21:11 270

原创 Hive入门系列(2)-Hive常用配置

配置Mysql集成# 下载cd /opt/soft/wget https://mirrors.bfsu.edu.cn/apache/hive/hive-2.3.7/apache-hive-2.3.7-bin.tar.gz# 安装tar -zxvf apache-hive-2.3.7-bin.tar.gzmv apache-hive-2.3.7-bin hive-2.3.7# 添加环境变量vim /etc/profile# HIVE_HOMEexport HIVE_HOME=/opt/so

2021-01-06 20:00:28 313

原创 Hive入门系列(1)-Hive简介+安装+基本操作

简介官网地址hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。优缺点优点：操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）。避免了去写 MapReduce，减少开发人员的学习成本。Hive 的执行延迟比较高，因此 Hive 常用于数据分析，对实时性要求

2021-01-06 17:31:02 327

原创 Zookeeper入门系列(1)-Zookeeper详解+集群部署

简介ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反

2021-01-06 17:05:53 382

记录知识、锤炼自我