2020年09月_weixin_42073629

原创 Hadoop（二）CentOS7.5搭建Hadoop2.7.6完全分布式集群

一完全分布式集群(单点）Hadoop官方地址：http://hadoop.apache.org/1 准备3台客户机1.1防火墙,静态IP,主机名关闭防火墙，设置静态IP，主机名此处略，参考Linux之CentOS7.5安装及克隆1.2 修改host文件我们希望三个主机之间都能够使用主机名称的方式相互访问而不是IP，我们需要在hosts中配置其他主机的host。因此我们在主机的/etc/hosts下均进行如下配置：[root@node21 ~]# vi /etc/host...

2020-09-30 02:02:29 442

原创 Hadoop（一）Hadoop的简介与源码编译

一 Hadoop简介1.1Hadoop产生的背景1.HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问，如何解决数十亿网页的存储和索引问题。2.2003年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。分布式文件系统（GFS），可用于处理海量网页的存储分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。 BigTable 数据库：OLTP 联机事..

2020-09-30 00:39:15 284

原创 springboot集成调用Azkaban

一、说明　　1.Azkaban是由Linkedin公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的key:value对的方式，通过配置中的dependencies 来设置依赖关系，这个依赖关系必须是无环的，否则会被视为无效的工作流。Azkaban使用job配置文件建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。 2.springboot版本：2.0.5 azkaban版本：3.59.0...

2020-09-29 21:23:00 1111

原创 Linux 磁盘分区、挂载和卸载

2020-09-28 01:51:59 1315

原创 Linux 环境变量设置

一、环境变量的概念1、环境变量的含义程序（操作系统命令和应用程序）的执行都需要运行环境，这个环境是由多个环境变量组成的。2、环境变量的分类1）按生效的范围分类。系统环境变量：公共的，对全部的用户都生效。用户环境变量：用户私有的、自定义的个性化设置，只对该用户生效。2）按生存周期分类。永久环境变量：在环境变量脚本文件中配置，用户每次登录时会自动执行这些脚本，相当于永久生效。临时环境变量：使用时在Shell中临时定义，退出Shell后失效。3、Linux环境变量Lin

2020-09-28 00:21:53 384

原创 SpringCloud微服务一文全解

首先我给大家看一张图，如果大家对这张图有些地方不太理解的话，我希望你们看完我这篇文章会恍然大悟。什么是Spring cloud构建分布式系统不需要复杂和容易出错。Spring Cloud 为最常见的分布式系统模式提供了一种简单且易于接受的编程模型，帮助开发人员构建有弹性的、可靠的、协调的应用程序。Spring Cloud 构建于 Spring Boot 之上，使得开发者很容易入手并快速应用于生产中。官方果然官方，介绍都这么有板有眼的。我所理解的Spring Cloud就是微服务系..

2020-09-27 22:56:07 245

原创 Hive SQL综合案例

一 Hive SQL练习之影评案例案例说明现有如此三份数据：1、users.dat 数据格式为： 2::M::56::16::70072，共有6040条数据对应字段为：UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释：用户id，性别，年龄，职业，邮政编码2、movies.dat 数据格式为： 2::Jumanji (1995)::Adventure|Children's|Fa

2020-09-24 01:02:43 1382

原创 Hive（十）Hive性能调优总结

一、Fetch抓取1、理论分析Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老版本hive默认是minimal，该属性修改为more以后，在全局查找、字段查找、limit

2020-09-23 23:55:49 683

原创 Hive（九）Hive 执行过程实例分析

一、Hive 执行过程概述1、概述（1） Hive 将 HQL 转换成一组操作符（Operator），比如 GroupByOperator, JoinOperator 等（2）操作符 Operator 是 Hive 的最小处理单元（3）每个操作符代表一个 HDFS 操作或者 MapReduce 作业（4）Hive 通过 ExecMapper 和 ExecReducer 执行 MapReduce 程序，执行模式有本地模式和分布式两种模式2、Hive 操作符列表3、Hive

2020-09-23 23:36:56 378

原创 Hive（八）Hive的Shell操作与压缩存储

一、Hive的命令行1、Hive支持的一些命令Command DescriptionquitUse quit or exit to leave the interactive shell.set key=valueUse this to set value of particular configuration variable. One thing to note here is that if you misspell the variable name, cli will not..

2020-09-23 23:20:48 433

原创 Hive（七）Hive分析窗口函数

一数据准备cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015-04-12,7cookie1,2015-04-13,3cookie1,2015-04-14,2cookie1,2015-04-15,4cookie1,2015-04-16,4创建数据库及表create database if not exists cookie;use cookie;drop table if exists cookie1;create ta.

2020-09-23 23:10:15 259 1

原创 Hive（六）内置函数与高级操作

一内置函数1 数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns the roundedBIGINTvalue ofa. 返回对a四舍五入的BIGINT值 DOUBLE round(DOUBLE a, INT d) ...

2020-09-23 01:20:47 553

原创 Hive（五）数据类型与库表操作以及中文乱码

一、数据类型1、基本数据类型Hive 支持关系型数据中大多数基本数据类型类型描述示例 boolean true/false TRUE tinyint 1字节的有符号整数 -128~127 1Y smallint 2个字节的有符号整数，-32768~32767 1S int 4个字节的带符号整数 1 bigint 8字节带符号整数 1L float 4字节单精度浮点数 1.0 dou

2020-09-23 00:48:24 463

原创 Hive（四）Hive的3种连接方式与DbVisualizer连接Hive

一、CLI连接进入到 bin 目录下，直接输入命令：[root@node21 ~]# hiveSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/opt/module/hive-2.3.3/lib/log4j-slf4j-impl-2.6.2.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding

2020-09-22 23:44:53 544

原创 Hive（三）Hive元数据信息对应MySQL数据库表

概述Hive 的元数据信息通常存储在关系型数据库中，常用MySQL数据库作为元数据库管理。上一篇hive的安装也是将元数据信息存放在MySQL数据库中。Hive的元数据信息在MySQL数据中有57张表一、存储Hive版本的元数据表（VERSION）VERSION -- 查询版本信息该表比较简单，但很重要。VER_ID SCHEMA_VERSION VERSION_COMMENT ID主键 Hive版本版本说明 1 2.3.0 ..

2020-09-22 23:18:36 743 1

原创 Hive（二）CentOS7.5安装Hive2.3.3

一 Hive的下载软件下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hive/这里下载的版本是：apache-hive-2.3.3-bin.tar.gz官方安装配置文档：https://cwiki.apache.org/confluence/display/Hive/GettingStarted二 Hive单用户安装远程Metastore数据库1 解压配置环境变量#解压指定位置安装[admin@node21 so...

2020-09-22 23:12:45 470

原创 Hive（一）Hive初识

一 Hive 简介什么是Hive1、Hive 由 Facebook 实现并开源2、是基于 Hadoop 的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供 HQL(Hive SQL)查询功能5、底层数据是存储在 HDFS 上6、Hive的本质是将 SQL 语句转换为 MapReduce 任务运行7、使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。　　数据仓库之父比尔·恩门（Bil

2020-09-22 21:55:09 243

原创数据仓库基本理论

一数据仓库的概念1什么是数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。2数据仓库能干什么？1）年度销售目标的指定，需要根据以往的历史报表进行决策，不能拍脑袋。2）如何优化业务流程例如：一个电商网站订单的完成包括：浏览、下单、支付、物流，其中物流环节可能和中通、申...

2020-09-22 21:50:15 806

原创深入理解Kafka副本机制

一、Kafka集群Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识broker.id，用于标识自己在集群中的身份，可以在配置文件server.properties中进行配置，或者由程序自动生成。下面是 Kafka brokers 集群自动创建的过程：每一个 broker 启动的时候，它会在 Zookeeper 的/brokers/ids路径下创建一个临时节点，并将自己的broker.id写入，从而将自身注册到集群；...

2020-09-21 23:24:30 831

原创 Kafka消费者详解

一、消费者和消费者群组在 Kafka 中，消费者通常是消费者群组的一部分，多个消费者群组共同读取同一个主题时，彼此之间互不影响。Kafka 之所以要引入消费者群组这个概念是因为 Kafka 消费者经常会做一些高延迟的操作，比如把数据写到数据库或 HDFS ，或者进行耗时的计算，在这些情况下，单个消费者无法跟上数据生成的速度。此时可以增加更多的消费者，让它们分担负载，分别处理部分分区的消息，这就是 Kafka 实现横向伸缩的主要手段。需要注意的是：同一个分区只能被同一个消费者群组里面的一个消费者读

2020-09-21 23:19:22 1171 1

原创 Kafka生产者详解

一、生产者发送消息的过程首先介绍一下 Kafka 生产者发送消息的过程：Kafka 会将发送消息包装为 ProducerRecord 对象， ProducerRecord 对象包含了目标主题和要发送的内容，同时还可以指定键和分区。在发送 ProducerRecord 对象前，生产者会先把键和值对象序列化成字节数组，这样它们才能够在网络上传输。接下来，数据被传给分区器。如果之前已经在 ProducerRecord 对象里指定了分区，那么分区器就不会再做任何事情。如果没有指定分区，那么分区器会根据

2020-09-21 23:11:52 213

原创 linux-shell之ps

Linux中的ps命令是ProcessStatus的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而ps命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行和运行的状态、进程是否结束、进程有没有僵死、哪些进程占用了过多的资源等等。总之大部分信息都是可以通过执行该命...

2020-09-21 13:39:38 144

原创 linux-shell之crontab

1、crontab命令概念crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令，并将其存放于“crontab”文件中，以供之后读取和执行。cron 系统调度进程。可以使用它在每天的非高峰负荷时间段运行作业，或在一周或一月中的不同时段运行。cron是系统主要的调度进程，可以在无需人工干预的情况下运行作业。crontab命令允许用户提交、编辑或删除相应的作业。每一个用户都可以有一个crontab文件来保存调度信息。系统管理员可以通过/etc/cron.deny 和 /etc/

2020-09-01 20:38:15 214

weixin_42073629的博客