我菜的要死-CSDN博客

原创大数据基础知识——数仓的搭建（维度建模）

数据仓库文章目录数据仓库数据仓库的介绍：数据仓库的概念：OLTP和OLAP区别：数据仓库的特点：面向主题：数据集成：非易失：时变：数据仓库系统架构系统结构图源数据ETL数据仓库与数据集市应用系统用户层纬度分析：维度分析介绍指标和纬度识别维度案例维度分层与分级数仓中的名词解释数仓名词之间关系实体表，事实表，维度表之间的关系指标与标签的区别维度和指标区别与联系自然键与代理键在数仓的使用区别数仓建模数据建模的概念范式建模法（Third Normal Form，3NF）维度建模法（Dimensional Mode

2022-03-18 15:24:26 12631 2

原创 MySQL计算同比和环比

MySQL计算同比和环比今天在做数据建模的时候，ads层的需求中有个叫同比和环比的指标，这两指标的计算之前都没有接触过，经过我两三个小时的研究，终于搞明白什么是同比，什么是环比，如何使用Mysql来计算同比和环比。我们先来看看什么是同比，什么是环比：同比：通常是指今年第n月与去年第n月相比。同比发展速度主要是为了消除季节变动的影响，用以说明本期发展水平与去年同期发展水平对比而达到的相对发展速度。环比：通常是指表示连续2个单位周期（比如连续两月）内的量的变化比。环比包括两种：环比增长速度和环比

2022-03-17 15:45:33 6680 3

原创大数据基础——HDFS（分布式文件系统）

分布式文件系统——HDFS文章目录分布式文件系统——HDFSHDFS概述HDFS发展历史HDFS的设计目标HDSF应用场景适合的应用场景不适合的应用场景HDFS架构HDFS的基本原理NameNode概念：作用：DataNodeHDFS的工作机制HDFS写数据流程HDFS读数据流程HDFS 在读取文件的时候，如果其中一个块突然损坏了怎么办HDFS 在上传文件的时候，如果其中一个 DataNode 突然挂掉了怎么办HDFS故障类型和其检测方法HDFS读写故障的处理：DataNode 故障处理HDFS副本机制H

2022-03-14 14:05:22 3620

原创大数据基础——Linux常用命令

一个优秀的操作系统——LinuxLinux 内核最初只是由芬兰人林纳斯·托瓦兹（Linus Torvalds）在赫尔辛基大学上学时出于个人爱好而编写的。Linux 是一套免费使用和自由传播的类 Unix 操作系统，是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。Linux 能运行主要的 UNIX 工具软件、应用程序和网络协议。它支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想，是一个性能稳定的多用户网络操作系统。本文章只

2022-03-01 15:09:16 456

原创大数据基础——Hadoop

Apache HadoopThe Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of compu

2022-03-01 13:30:53 1160

原创大数据基础——MySql篇

MySql什么是数据库数据库：保存数据的仓库，他在电脑中是一个文件系统，然后把数据都保存在这些特殊的文件中，并且使用固定的语言（SQL语言）去操作文件中的数据。数据库就是按照数据结构来组织，存储和管理数据的建立在计算机存储设备上的仓库。数据库的分类关系型数据库oracle，MySQL，SqlServer，DB2非关系型数据库Redis，Hbase，ElasticSearch ，MongoDBSQL基础知识结构化查询语言(Structured Query Langu

2022-02-21 18:08:40 6945 3

原创大数据面试准备——java篇

大数据面试准备——java篇java中的数据类型java中的数据类型分为基本数据类行和引用数据类型基本数据类型有：byte，short，int，long，char，float，double，boolen注意和scala中的数据类型做区别，scala中的数据类型首字母是大写的。引用数据类型有：类，对象，数组等包装类型：Byte，Short，Integer，Long ，Character，Float，Double，Booleanjava中的集合单列集合：顶层

2022-02-21 10:56:32 1360

原创大数据基础---Hive（第一篇）

数据仓库—Hive文章目录数据仓库---Hive一：Hive的基本概念：1.1：Hive简介1.1.1：什么是Hive1.1.2：为什么要使用Hive呢1.1.3：Hive的特点1.2：Hive的架构：1.2.1：Hive的基本组成1.2.2：Hive的元数据1.2.3：HQL的执行流程1.3：Hive的安装：1.3.1：Hive的安装方式：1.3.2：Hive的安装步骤：二：Hive的数据类型：2.1：基本数据类型2.2：Hive中的隐式是数据转换2.3：复杂类型三：Hive的内容格式&Hive

2022-01-06 17:12:38 737

原创大数据基础——分布式协调服务（zookeeper）

分布式协调服务——zookeeper1 : zookeeper 概述:1.1 : zookeeper简介:zookeeper是一个分布式的, 开源的分布式应用程序协调服务,是对Google的Chubby组件的开源实现,为Hadoop和HBase的运行提供了相应的服务.他是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护(使得集群中的机器可以共享配置信息中的那些公共的部分)；命名服务（是指通过指定的名字来获取资环或者服务的地址，以及提供者的信息，利用zookeeper可以很容易的创建一个

2022-01-03 17:38:16 3974

原创完美解决mysql数据库报Packet for query is too large (164,357 ＞ 2,048)的错误

今天打开了前段时间写的个人博客系统，在查询文章内容的时候报了：Packet for query is too large (164,357 > 2,048). You can change this value on the server by setting the ‘max_allowed_packet’ variable.的错误。个人所使用的的数据库是mysql 5.1.36。搭建方式是在腾讯云服务器使用docker构建的。以下就是报错信息：### The error may exist i

2021-11-08 11:11:00 10276

原创安装apache-zookeeper-3.5.9.tar.gz时报错：Error: Could not find or load main class org.apache.zookeepe……

关于安装apache-zookeeper-3.5.9.tar.gz时报Error: Could not find or load main class org.apache.zookeeper.server.quorum.的解决方案：在apache官网上下载的apache-zookeeper-3.5.9.tar.gz安装包，上传到服务器后解压，修改完zoo.cof文件，添加了myid文件，在启动的时候，显示启动成功，但是使用jps查看服务的时候，看不到zookeeper的进程，再次启动的时候又能重新启动，

2021-10-13 09:24:24 724

原创 zookeeper无法启动：出现Unable to load database on disk报错

“Unable to load database on disk” 错误的解决办法我的hadoop集群是利用VMware Workstation部署的，今天在启动的时候，发现slave2节点的zookeeper启动出现异常，使用zkServer.sh start 命令启动，显示启动成功，但是使用jps查看进程，发现没有zookeeper的进程QuorumPeerMain。查看日志发现报了如下错误：[hadoop@slave2 ~]$ tail -n 300 zookeeper.out 2021-

2021-06-11 09:47:18 7039 1

原创 eclipse 配置tomcat8 报错：The Apache Tomcat installation at this directory is version 8.5.54.ATomcat 8.0

解决方法:打开tomcat的lib目录。apache-tomcat-8.5.54\lib的catalina.jar文件。用解压缩工具打开org/apache/catalina/util/ServerInfo.properties将：server.info=Apache Tomcat/8.5.54server.number=8.5.54.0改为：server.info=Apache Tomcat/8.0.0server.number=8.5.54.0即可...

2020-08-11 12:10:02 1116

原创 Eclipse调试Java程序警告ERROR: JDWP Unable to get JNI 1.2 environment

Eclipse调试Java程序警告 ERROR: JDWP Unable to get JNI 1.2 environment, jvm->GetEnv() return code = -2 JDWP exit error AGENT_ERROR_NO_JNI_ENV(183): [util.c:840] 的解决方法：原因：上一次调试的代码有Error，导致进程没有被终止，占用了Console输出。但是呢，这并不影响代码运行。解决方法：1）杀掉所有java进程，一般情况下重启就行了2）在程序

2020-05-28 11:23:14 1419

原创 Anaconda使用conda install pymysql命令无法安装pymysql的解决办法

Anaconda使用conda install pymysql命令无法安装pymysql的解决办法最近在学使用pymysql库读取mysql中的数据，但是呢，使用conda install pymysql 命令无法安装pymysql，所以就找到了另外的一种安装方式。我使用的系统是windows10专业版，用的Python版本是Python3.7，使用的Anaconda的版本是Anaconda3...

2020-04-20 20:13:15 8563 1

原创 Python数据分析——pandas

pandas是基于NumPy的一种工具，该工具是为了解决数据分析任务而创建的。pandas纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。3.1 pandas数据结构3.1.1：创建Series数据Series数据结构类似于一维数组，但它是由一组数据（各种NumPy数据类型）和一组对应的索引组成的。需...

2020-04-14 10:51:48 2052

原创 Python数据分析——numpy

**numpy库是用于科学计算的一个开源的Python扩充程序库，是其他数据分析包的基础包，它为Python提供了高性能的数组与矩阵运算处理能力。**2.1：ndarray多维数组2.1.1：创建ndarray数组通过NumPy库的array函数，即可轻松地创建ndarray数组。NumPy库能将序列数据（列表，元组、数组或其他序列类型）转换为ndarray数组。在使用前需要引入num...

2020-03-28 21:20:34 969

原创 CentOS6.5配置eth0重启报错提示Device eth0 does not seem to be present,delaying initialization 的解决方法

CentOS6.5配置eth0重启报错提示Device eth0 does not seem to be present,delaying initialization的结决方法在搭建Hadooop 完全分布式的时候，从节点一般是从主节点复制过来的，再给从节点配置网络的时候，会出现Device eth0 does not seem to be present,delaying initializ...

2020-02-15 15:01:03 1187 1

原创 HDFS 分布式文件系统

# HDFS 分布式文件系统一：HDFS体系结构详解：1：什么是文件系统：文件系统是操作系统提供的，用于解决“如何在磁盘上组织文件”的一系列方法和数据结构。用户不用关心文件具体在磁盘上是如何存放的，只需要能够熟练掌握类似于指定文件的存储路径，往哪个路径下的文件写数据，从哪个路径下读取文件数据等基本的文件系统操作就可以了。2：什么是分布式文件系统：当文件比较大时，即文件中的数据存储所需空间...

2019-12-24 21:09:19 708

原创使用Eclipse搭建Hadoop的开发环境

使用Eclipse搭建Hadoop的开发环境1、关闭Eclipse软件，将hadoop-eclipse-plugin-2.6.0.jar文件（eclipse中hadoop插件，可以到相关资源网站去下载。）拷贝至eclipse安装目录的plugins文件夹下。如图1所示：查找eclipse安装路径查找方式：在桌面找到eclipse图标，右键点击，选择属性：选择【打开文件位置】，该位置就是...

2019-10-18 21:31:50 1235

原创 Hadoop 伪分布式的搭建（六）——Hadoop伪分布式集群的安装配置

Hadoop 伪分布式的搭建（五）——Hadoop伪分布式集群的安装配置前面的基本环境准备完成之后，接下来就开始安装hadoop伪分布式环境，在这里选择安装Hadoop2.7.3版本，大家可以到官网或者其他的资源下载网站下载文件hadoop-2.7.3.tar.gz的安装包。...

2019-10-17 22:51:57 633

原创使用 VMware ESXi 5.1 搭建 VMware 虚拟化平台三：管理 VMware 虚拟网络

使用 VMware ESXi 5.1 搭建 VMware 虚拟化平台三：管理 VMware 虚拟网络拓扑规划：项目实施：一：查看网络信息：（1）：打开在 VMware ESXi 中安装的 CentOS 客户机，查看 IP 地址。（2）在本机打开命令行，ping 虚拟机的 IP 地址，是可以 ping 通的。（3）使用 SSH 客户端工具 Xshell 也可以连接到 CentOS...

2019-10-17 20:30:47 3719

原创 Hadoop 伪分布式的搭建（五）——JDK的安装和环境变量的配置

Hadoop 伪分布式的搭建（五）——JDK的安装和环境变量的配置在运行Hadoop时需要Java，所以我们要安装Java的开发环境（JDK）,在这里选择Java8版本安装hadoop环境，另外目前大多数CentOS 系统都会选择64位的版本，所以jdk也需要选择与相匹配的64位的版本。首先，先创建jdk的安装目录：/home/hadoop/app，具体操作如下：可以到官网或者一些其他的资源...

2019-10-16 21:02:13 790 1

原创使用 VMware ESXi 5.1 搭建 VMware 虚拟化平台二：使用 vSphere Client 管理虚拟机

二、使用 vSphere Client 管理虚拟机拓扑规划：项目实施1 、将客户机操作系统安装光盘 ISO 上传到 ESXi 存储（1）使用 VMware vSphere Client 连接到 VMware ESXi。（2）在主机的“摘要”栏查看 VMware ESXi 主机的摘要信息，在“常规”栏可以查看主机制造商、型号、处理器、许可证、vSphere 基本配置概要等信息，...

2019-10-16 16:37:41 2588

原创使用 VMware ESXi 5.1 搭建 VMware 虚拟化平台一：安装ESXi服务器

安装ESXi服务器拓扑规划：项目实施：1 、创建 VMware ESXi 5.1 虚拟机:(1):在 VMware Workstation 15 中创建新的虚拟机，选择“自定义”配置。（2）虚拟机硬件兼容性选择最高版本。（3）选择“稍后安装操作系统”。（4）客户机操作系统选择 VMware ESXi 5。（5）配置虚拟机的保存位置。（6）为虚拟机配置虚拟处理器，VMw...

2019-10-15 23:22:27 3030 3

原创 windows安装JDK及配置环境变量

一、JDK的安装1、安装版本jdk-8u101-windows-x64.exe该版本使用与windows64位操作系统。2、安装步骤双击安装程序如下：点击下一步，修改安装路径：建议：安装路径尽量不要有空格，这是一个安装习惯，因为有些其他的软件使用JDK时，识别空格会有问题。点击下一步等待安装。等待过程中，会出现另一个安装界面，如下：修改路径如下，这里需要新建一个文件夹，...

2019-10-15 06:28:36 1477

原创 eclipse安装及使用

1、安装版本eclipse-committers-2018-12-R-win32-x86_64.zip该版本支持JDK8。2、安装步骤解压即可。3、运行eclipse并进行配置解压后打开eclipse目录，双击eclipse.exe。出现如下界面：点击Browse修改Workspace路径：建议：使用Workspace默认路径也可以，但是建议不要选择C盘。然后点击Laun...

2019-10-15 06:28:02 1376

原创 Hadoop伪分布式的搭建（四）—— 配置SSH免密码登录

Hadoop伪分布式的搭建（三）—— 配置SSH免密码登录SSH 是可以在应用程序中提供安全通信的一个协议，通过SSH可以安全的进行网络数据传输，它的主要原理就是利用非对称加密体系，对所有待传输的数据进行加密，保证数据在传输是不被破坏，泄露或者篡改，但是Hadoop使用SSH只要不是用来进行数据传输的，Hadoop只要是在启动和停止的时候需要主节点通过ssh协议将从节点上的进程启动或者停止，也就...

2019-10-14 23:36:20 3465 1

原创 Hadoop伪分布式的搭建（三）—— 创建用户和用户名

Hadoop伪分布式的搭建（三）—— 创建用户和用户名在Hadoop的安装过程中，为了系统安全考虑，一般不直接使用超级用户root，而是需要创建一个新的用户，在CentOS 中，可以直接使用useradd命令创建新用户。useradd的使用方法如图所示：接下来在控制台使用useradd 命令来新建一个普通用户hadoop，具体的具体操作如图所示：在创建用户时，有时指定了一个-m 的参数...

2019-10-14 20:55:14 1330

原创 Hadoop伪分布式的搭建（二）—— 配置hostname与IP抵制之间的对应关系

Hadoop伪分布式的搭建（二）—— 配置hostname与IP抵制之间的对应关系实际上不论是IP地址还是主机的用户名都是为了表示一台主机或者服务器，IP地址就是一台主机上网是的IP协议分配给他的一个逻辑地址，主机名就相当于又给这台机器取了一个名字，可以为主机取各种各样的名字，如果想要用这个名字其访问这台主机，就需要配置hostname与IP地址之间的对应关系。具体方法：查看主机的主机名，使...

2019-10-14 20:27:02 871

原创 Hadoop伪分布式的搭建（一）——关闭防火墙和禁用SELINUX

Hadoop伪分布式的搭建（一）——关闭防火墙和禁用SELINUX1：关闭防火墙：防火墙是对服务器进行保护的一种服务，但有时候会带来很多麻烦，他会妨碍Hadoop集群间的相互通信，所以我们要关闭防火墙。具体操作如下：在控制台中输入：chkconfig iptables off 命令，按回车键执行命令，即可关闭防火墙。执行完上述命令后，重启Linux系统，在控制台输入：reboot这样...

2019-10-14 20:05:05 1857

原创为CentOS 6.5配置网络

为CentOS 6.5配置网络网卡IP地址配置的正确与否是两台服务器是否可以相互通信的前提，在Linux系统中，“一切皆文件”，因此，配置网络服务的工作其实就是在编辑网卡的配置能文件。在CentOS6.5中，网卡扥配置信息存储在 /etc/sysconfig/network-scripts 目录中，我们配置网络，其实就是配置 /etc/sysconfig/network-scripts 目录中...

2019-10-14 19:33:04 579

lixufei12138的博客