YuBx-CSDN博客

原创大数据各集群配置详情

大数据各集群框架的配置详情Hadoop完全集群配置分析： 1）准备3台客户机（关闭防火墙、静态ip、主机名称） 2）安装JDK 3）配置环境变量 4）安装Hadoop 5）配置环境变量 6）配置集群 7）单点启动 8）配置ssh 9）群起并测试集群编写分发脚本rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出i

2020-10-17 16:09:54 720

原创 HTML基础标签合集

html基础标签集合

2022-10-02 14:20:40 375

原创 Linux上安装nginx

Liunx上安装nginx注意：建议全程使用root用户进行安装一、使用yum安装nginx需要的一些依赖包sudo yum -y install openssl openssl-devel pcre pcre-devel zlib zlib-devel gcc gcc-c++二、下载nginx如果已经有下载好的安装包, 此步骤可以省略如果是centos是7以上版本，使用以下命令安装wget http://nginx.org/download/nginx-1.12.2.tar.gz如果c

2021-08-24 17:53:49 245

原创判断字符串类型的几种方法

判断字符串类型的几种方法1，如果是判断该字符串或者该字是不是中文的话，用以下代码：String s1; if(s1.matches("[\\u4E00-\\u9FA5]+")){ System.out.print("s1是中文"); }2，如果是判断该字符串或者该字是不是所有的标点符号的话，用以下代码：String s1; if(s1.matches("[\\pP\\p{Punct}]")){ System.out.print("s1是标点符号");

2021-06-05 18:15:58 7152

原创 Java中List和Set集合的区别

相同点：都属于Java中的集合List的主要实现类为ArrayList和LinkList；Set的主要实现类为HashSet和TreeSetList可以允许有重复值；Set不可以有重复值List可以插入多个null值；Set只允许插入一个null值List集合内是有序的；Set集合是无序的，TreeSet通过 Comparator 或者 Comparable 维护了一个排序顺序List方法常用的实现类有ArrayList、LinkedList 和 Vector。其中ArrayList 最为流行，.

2021-05-25 21:25:16 3345

原创 Spark Streaming之基础知识

Spark Streaming之基础知识一、概叙Spark Streaming是spark的核心API的扩展，用于构建弹性、高吞吐量、容错的在线数据流的流式处理程序数据源多种，可来自kafka、flume、HDFS等数据输出到HDFS、数据库、可视化界面处理的数据是一批，属于微批处理批处理间隔是 Spark Streaming 的核心概念和关键参数，它决定了 Spark Streaming 提交作业的频率和数据处理的延迟，同时也影响着数据处理的吞吐量和性能它提供了一个高级抽象DStream，

2020-11-25 17:22:26 363

原创 Spark Sql之基础知识

Spark Sql之基础知识一、Spark SQL概述Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块Spark SQL比Spark core执行效率快，内部做了一些额外的优化Spark SQL 它提供了2个编程抽象, 类似 Spark Core 中的 RDD，一个是DataFrame，一个是DataSet二、Spark SQL特点易整合：无缝的整合了SQL查询和spark编程统一的数据访问方式：使用相同的方式连接不同的数据源

2020-11-20 11:09:37 291

原创 Spark Core之基础知识

Spark Core之基础知识一、RDD概叙RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象在代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合二、RDD的五个主要属性多个分区. 分区可以看成是数据集的基本组成单位计算每个切片(分区)的函数与其他 RDD 之间的依赖关系对存储键值对的 RDD, 还有一个可选的分区器存储每个切片优先(preferred location)位置的列表

2020-11-17 12:00:23 232

原创 Spark基础知识

Spark基础知识一、Spark概叙spark是一个基于内存计算并且快速、通用、可扩展的集群计算引擎spark目前是Apache最活跃的开源项目二、Spark特点快速性：基于内存计算，比MapReduce快一百倍通用性：提供了大量的类库, 包括 SQL 和 DataFrames, 机器学习(MLlib), 图计算(GraphicX), 实时流处理(Spark Streaming)，可以把这些类库无缝的柔和在一个 App 中；它还结合了SQL, Streaming和复杂分析易用性：支持 S

2020-11-12 20:45:16 222

原创 Hadoop之HDFS基础知识

Hadoop之HDFS基础知识一、HDFS概叙1.HDFS是一个分布式文件系统，通过目录树来定位文件2.HDFS优缺点优点：高容错性、适合处理大数据、可以构建在廉价的机器上，通过多副本机制，提高可靠性缺点：不适合低延迟数据的访问、无法对大量小文件进行存储、不支持并发写入，文件随机修改3.HDFS组成架构namenode：是一个主管者，管理HDFS的名称空间配置副本策略管理数据块的映射信息处理客户端的请求datanode是一个slave，namenode下达命令，dat

2020-11-07 10:34:22 239

原创 Hbase的基础知识

Hbase的基础知识一、关系型数据库的查询瓶颈高并发的更新操作多表关联后的复杂查询这些都是关系型数据库的查询瓶颈，所以要用到NoSQL非关系型数据二、NoSQL现在NoSQL被普遍理解理解为“Not Only SQL”，意为不仅仅是SQLNoSQL和传统的关系型数据库在很多场景下是相辅相成的，谁也不能完全替代谁三、HBase定义HBase是一个分布式、可扩展、支持海量数据存储的NoSQL数据库HBase是面向列存储，构建于hadoop上，提供对10亿级别表数据的快速随机

2020-11-06 19:12:10 234

原创大数据之CDH集群搭建

大数据之CDH集群搭建注意：全程在root用户下执行，其他用户可能出现权限问题导致安装失败或启动失败一、配置主机名（每台都要做）vi /etc/sysconfig/network二、配置主机地址（每台都要做）vi /etc/hosts三、配置IP（每台都要做）vi /etc/udev/rules.d/70-persistent-net.rules //把第一个配置去掉，拷贝第二个地址，然后把最后的eth1改为eth0vi /etc/sysconfig/network-scripts/if

2020-11-05 23:16:49 573 1

原创 Kafka基础知识

Kafka基础知识一、概叙Kafka是一个开源的消息系统，由scala写成目标是为处理实时数据提供一个统一、高通量、低等待的平台Kafka是一个分布式消息队列无论是kafka集群，还是consumer都依赖于zookeeper集群保存一些meta信息，来保证系统可用性二、架构Producer：消息生产者，就是向kafka broker发消息的客户端Consumer ：消息消费者，向kafka broker取消息的客户端Topic：可以理解为一个队列Consumer Group （C

2020-11-03 17:07:14 222

原创 Flume基础知识

Flume基础知识一、概叙Flume是一个高可用、高可靠的用于海里日志采集、聚合和传输的系统。Flume基于流式架构，简单灵活。Flume最主要的作用是读取服务器本地磁盘文件的数据，将数据写入HDFS二、Flume的基本组成架构source：主要用于接收搜集日志数据，常用的有exec、spooldir、netcat、kafka、taildir、avro等channel：主要用于缓存采集过来的数据，主要有memory channel和file channel，前者基于内存缓存，对数据安全性不高

2020-11-02 20:52:28 173

原创 Zookeeper基础

Zookeeper基础一、概叙Zookeeper是一个开源的、分布式的，为分布式应用提供协调服务的框架。Zookeeper是文件系统+通知机制。Zookeeper从设计模式来讲是一个观察者模式设计的分布式服务管理框架。二、特点一个leader和多个follower组成集群达到半数以上的机器存活即可正常运行全局一致性数据更新原子性，一次数据更新要么成功，要么失败实时性，能读到最新数据数据结构是类似于Unix文件系统的树形结构三、应用场景统一命名服务统一配置管理统一集群管理

2020-11-02 19:42:50 219 2

原创电商数据仓库—系统业务数仓

电商数据仓库—系统业务数仓电商常识SKU（库存量基本单位）：指具体某一个商品。SPU（商品信息聚合的最小单位）：指某一类的商品。系统业务数仓涉及的表（8个）用户表（user_info)：属于实体表，需要全量表同步标签含义id用户idname姓名birthday生日gender性别email邮箱user_level用户等级create_time创建时间订单表（order_info）：属于周期型事实表，需要增量及

2020-11-02 11:38:54 662

原创 Hadoop之MapReduce基础知识

Hadoop之MapReduce基础知识一、MapReduce的概念 MapReduce是一个处理海量数据的分布式计算框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。二、MapReduce的优缺点优点：MapReduce易于编程良好的扩展性高容错性适合PB级别的海量数据的离线处理分析缺点：不擅长实时计算不擅长流式计算不擅长DAG（有向图）计算三、MapReduce的核心思想（Map和Reduce）job（作业）：一个MapReduce程序称为一个job

2020-10-30 16:34:39 801 1

原创 Sqoop的简单使用

Sqoop的简单使用RDBMS到HDFS全部导入$ bin/sqoop import \--connect jdbc:mysql://192.168.34.21:3306/company \--username root \--password 123456 \--table staff \--target-dir /company \--delete-target-dir \--fields-terminated-by "\t" \--num-mappers 1 \--spli

2020-10-21 11:50:38 250

原创电商数据仓库—用户行为数仓

电商数据仓库—用户行为数仓数仓分层概念为什么数仓分层？（优点）把复杂问题简单化，方便定位问题减少重复开发，通过中间数据层可以增加一次计算的复用性隔离原始数据，使真实数据和统计数据解耦开分为那几层？具体作用是什么？ODS：原始数据层，主要存储最原始采集来的数据DWD：数据清洗层，对ODS层的数据进行清洗，去空值，去异常值，去重复值DWS：服务数据层，对DWD层的数据进行一个轻度的汇总，主要以明细为主ADS：数据应用层，对DWS层的数据进行一个明确的统计，为各种统计报表提供数据

2020-10-20 18:28:13 330

原创电商数据仓库—数据采集平台搭建

电商数据仓库—数据采集平台搭建数据仓库的概念什么是数据仓库数据仓库就是为企业所有的决策制定过程，提供所有系统数据支持的战略集合。数据仓库的目的建立数据仓库并不是数据的最终目的，而是为了数据的最终目的做好准备。（比如数据清洗、拆分、统计等等）数据仓库的作用通过对数据仓库中的数据进行分析，可以帮助企业改进业务流程、控制成本、提高产品质量等。数据仓库的数据来源主要是三大来源： 1.日志采集系统 2.业务系统数据库 3.爬虫系统（还有第三方接口）项目需求

2020-10-20 18:27:38 1044

原创大数据数仓工具之Hive

Hivehive基本概念hive是一个数据仓库工具，可以将结构化的数据映射为一张表，并提供类SQL查询功能hive本质是将HQL转换为MapReduce程序hive分析数据的底层的实现是MapReduce，执行程序运行在Yarn上hive元数据存储在Mysql，数据本身存储在HDFS上hive的优缺点优点：基于SQL类似的语法避免了MapReduce编程处理海量数据比较有优势hive支持根据需求来自定义函数缺点：hive的HQL表达能力有限数据挖掘方面不擅长hive执

2020-10-17 14:01:07 446

原创 Hadoop的HDFS的学习笔记

一丶HDFS的写数据流程1，启动服务端的NN，DN进程，提供一个分布式文件系统client；2，由客户端向NN发起请求，请求上传一个文件，NN对请求进行合法检查(权限，路径是否合法，路径是否存在)；3，如果合法，NN响应客户端允许上传；4，客户端根据自己设置的blk大小，切分blk，读取第一个blk的内容，请求NN分配DN的地址列表；5，NN参考客户端上传的文件的副本数，根据机架感知，返回对应的DN列表(按照距离从近到远返回DN地址列表)；6，客户端请求距离最近的DN节点，再由DN列表中每个D

2020-09-19 20:20:09 286

原创 Hadoop中的关于数据压缩的学习

一丶数据压缩的策略和原则压缩策略和原则：压缩是提高Hadoop运行效率的一种优化策略。通过对Mapper、Reducer运行过程的数据进行压缩，以减少磁盘IO，提高MR程序运行速度。注意：采用压缩技术减少了磁盘IO，但同时增加了CPU运算负担。所以，压缩特性运用得当能提高性能，但运用不当也可能降低性能。压缩基本原则：（1）运算密集型的job，少用压缩（2）IO密集型的job，多用压缩二丶MR支持的压缩编码为了支持多种压缩/解压缩算法，Hadoop引入了编码/解码器，如下表所示。压缩性

2020-09-17 19:49:38 329

原创 Hadoop中MapReduce的相关优化

一丶MapReduce 跑的慢的原因1．计算机性能CPU、内存、磁盘健康、网络2．I/O 操作优化（1）数据倾斜（2）Map和Reduce数设置不合理（3）Map运行时间太长，导致Reduce等待过久（4）小文件过多（5）大量的不可分块的超大文件（6）Spill次数过多（7）Merge次数过多等。二丶MapReduce优化方法MapReduce优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。map阶段：（1）减少溢写

2020-09-17 19:13:36 342

原创关于MapReduce的学习笔记

MapReduce一. 简介它是一个分布式计算框架，用于离线计算。（对于计算来说，我们这里讲的是广义的计算，它是计算开始的数据读取，计算开始（加减乘除、数据处理），计算结束后的存储的一种计算）二. 优缺点优点：1，简化编程；2，可以扩展机器增加运算能力；横向扩展：添加机器纵向扩展：在一个机器上添加硬件3，高容错性；4，海量数据离线计算；缺点：1，不擅长实时计算；2，不擅长流式计算；3，不擅长图计算；三. MR的核心思想Job(作业)：一个MR程序称为一个job；MRAppM

2020-09-11 19:10:50 222

原创 zookeeper和hadoop集群集启脚本（超详细）

首先你的保证你的hadoop集群和zookeeper集群是正常安装好并且相关配置是配置完成的，当以上工作完成后就可以进行集群脚本编写了。1.首先在你的当前用户的家目录下创建一个bin目录，专门用来存放自己编写的脚本；用命令mkdir bin。mkdir bin2.然后进入bin目录下，使用命令vi zookeeper-hadoop先创建一个名为zookeeper-hadoop的文件，这个文件就是你之后的脚本名称，进入之后就可以编写自己的脚本。vi zookeeper-hadoop代码如下

2020-09-09 21:06:49 608