大数据
文章平均质量分 80
此专栏的文章全部为大数据相关知识
我菜的要死
这个作者很懒,什么都没留下…
展开
-
大数据基础知识——数仓的搭建(维度建模)
数据仓库文章目录数据仓库数据仓库的介绍:数据仓库的概念:OLTP和OLAP区别:数据仓库的特点:面向主题:数据集成:非易失:时变:数据仓库系统架构系统结构图源数据ETL数据仓库与数据集市应用系统用户层纬度分析:维度分析介绍指标和纬度识别维度案例维度分层与分级数仓中的名词解释数仓名词之间关系实体表,事实表,维度表之间的关系指标与标签的区别维度和指标区别与联系自然键与代理键在数仓的使用区别数仓建模数据建模的概念范式建模法(Third Normal Form,3NF)维度建模法(Dimensional Mode原创 2022-03-18 15:24:26 · 11330 阅读 · 2 评论 -
MySQL计算同比和环比
MySQL计算同比和环比今天在做数据建模的时候,ads层的需求中有个叫同比和环比的指标,这两指标的计算之前都没有接触过,经过我两三个小时的研究,终于搞明白什么是同比,什么是环比,如何使用Mysql来计算同比和环比。我们先来看看什么是同比,什么是环比:同比:通常是指今年第n月与去年第n月相比。同比发展速度主要是为了消除季节变动的影响,用以说明本期发展水平与去年同期发展水平对比而达到的相对发展速度。环比:通常是指表示连续2个单位周期(比如连续两月)内的量的变化比。环比包括两种:环比增长速度和环比原创 2022-03-17 15:45:33 · 5621 阅读 · 3 评论 -
大数据基础——HDFS(分布式文件系统)
分布式文件系统——HDFS文章目录分布式文件系统——HDFSHDFS概述HDFS发展历史HDFS的设计目标HDSF应用场景适合的应用场景不适合的应用场景HDFS架构HDFS的基本原理NameNode概念:作用:DataNodeHDFS的工作机制HDFS写数据流程HDFS读数据流程HDFS 在读取文件的时候,如果其中一个块突然损坏了怎么办HDFS 在上传文件的时候,如果其中一个 DataNode 突然挂掉了怎么办HDFS故障类型和其检测方法HDFS读写故障的处理:DataNode 故障处理HDFS副本机制H原创 2022-03-14 14:05:22 · 3274 阅读 · 0 评论 -
大数据基础——Linux常用命令
一个优秀的操作系统——LinuxLinux 内核最初只是由芬兰人林纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的。Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。Linux 能运行主要的 UNIX 工具软件、应用程序和网络协议。它支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。本文章只原创 2022-03-01 15:09:16 · 351 阅读 · 0 评论 -
大数据基础——Hadoop
Apache HadoopThe Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of compu原创 2022-03-01 13:30:53 · 967 阅读 · 0 评论 -
大数据基础——MySql篇
MySql什么是数据库数据库:保存数据的仓库,他在电脑中是一个文件系统,然后把数据都保存在这些特殊的文件中,并且使用固定的语言(SQL语言)去操作文件中的数据。数据库就是按照数据结构来组织,存储和管理数据的建立在计算机存储设备上的仓库。数据库的分类关系型数据库oracle,MySQL,SqlServer,DB2非关系型数据库Redis,Hbase,ElasticSearch ,MongoDBSQL基础知识结构化查询语言(Structured Query Langu原创 2022-02-21 18:08:40 · 6514 阅读 · 2 评论 -
大数据面试准备——java篇
大数据面试准备——java篇java中的数据类型java中的数据 类型分为基本数据类行和引用数据类型基本数据类型有:byte,short,int,long,char,float,double,boolen注意和scala中的数据类型做区别,scala中的数据类型首字母是大写的。引用数据类型有:类,对象,数组等包装类型:Byte,Short,Integer,Long ,Character,Float,Double,Booleanjava中的集合单列集合:顶层原创 2022-02-21 10:56:32 · 1261 阅读 · 0 评论 -
大数据基础---Hive(第一篇)
数据仓库—Hive文章目录数据仓库---Hive一:Hive的基本概念:1.1:Hive简介1.1.1:什么是Hive1.1.2:为什么要使用Hive呢1.1.3:Hive的特点1.2:Hive的架构:1.2.1:Hive的基本组成1.2.2:Hive的元数据1.2.3:HQL的执行流程1.3:Hive的安装:1.3.1:Hive的安装方式:1.3.2:Hive的安装步骤:二:Hive的数据类型:2.1:基本数据类型2.2:Hive中的隐式是数据转换2.3:复杂类型三:Hive的内容格式&Hive原创 2022-01-06 17:12:38 · 561 阅读 · 0 评论 -
大数据基础——分布式协调服务(zookeeper)
分布式协调服务——zookeeper1 : zookeeper 概述:1.1 : zookeeper简介:zookeeper是一个分布式的, 开源的分布式应用程序协调服务,是对Google的Chubby组件的开源实现,为Hadoop和HBase的运行提供了相应的服务.他是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护(使得集群中的机器可以共享配置信息中的那些公共的部分);命名服务(是指通过指定的名字来获取资环或者服务的地址,以及提供者的信息,利用zookeeper可以很容易的创建一个原创 2022-01-03 17:38:16 · 3723 阅读 · 0 评论 -
安装apache-zookeeper-3.5.9.tar.gz时报错:Error: Could not find or load main class org.apache.zookeepe……
关于安装apache-zookeeper-3.5.9.tar.gz时报Error: Could not find or load main class org.apache.zookeeper.server.quorum.的解决方案:在apache官网上下载的apache-zookeeper-3.5.9.tar.gz安装包,上传到服务器后解压,修改完zoo.cof文件,添加了myid文件,在启动的时候,显示启动成功,但是使用jps查看服务的时候,看不到zookeeper的进程,再次启动的时候又能重新启动,原创 2021-10-13 09:24:24 · 556 阅读 · 0 评论 -
zookeeper无法启动:出现Unable to load database on disk报错
“Unable to load database on disk” 错误的解决办法我的hadoop集群是利用VMware Workstation部署的,今天在启动的时候,发现slave2节点的zookeeper启动出现异常,使用zkServer.sh start 命令启动,显示启动成功,但是使用jps查看进程,发现没有zookeeper的进程QuorumPeerMain。查看日志发现报了如下错误:[hadoop@slave2 ~]$ tail -n 300 zookeeper.out 2021-原创 2021-06-11 09:47:18 · 5603 阅读 · 1 评论 -
CentOS6.5配置eth0重启报错提示Device eth0 does not seem to be present,delaying initialization 的解决方法
CentOS6.5配置eth0重启报错提示Device eth0 does not seem to be present,delaying initialization的结决方法在搭建Hadooop 完全分布式的时候,从节点一般是从主节点复制过来的,再给从节点配置网络的时候,会出现Device eth0 does not seem to be present,delaying initializ...原创 2020-02-15 15:01:03 · 947 阅读 · 1 评论 -
HDFS 分布式文件系统
# HDFS 分布式文件系统一:HDFS体系结构详解:1:什么是文件系统:文件系统是操作系统提供的,用于解决“如何在磁盘上组织文件”的一系列方法和数据结构。用户不用关心文件具体在磁盘上是如何存放的,只需要能够熟练掌握类似于指定文件的存储路径,往哪个路径下的文件写数据,从哪个路径下读取文件数据等基本的文件系统操作就可以了。2:什么是分布式文件系统:当文件比较大时,即文件中的数据存储所需空间...原创 2019-12-24 21:09:19 · 593 阅读 · 0 评论 -
使用Eclipse搭建Hadoop的开发环境
使用Eclipse搭建Hadoop的开发环境1、关闭Eclipse软件,将hadoop-eclipse-plugin-2.6.0.jar文件(eclipse中hadoop插件,可以到相关资源网站去下载。)拷贝至eclipse安装目录的plugins文件夹下。如图1所示:查找eclipse安装路径查找方式:在桌面找到eclipse图标,右键点击,选择属性:选择【打开文件位置】,该位置就是...原创 2019-10-18 21:31:50 · 1108 阅读 · 0 评论 -
Hadoop 伪分布式的搭建(六)——Hadoop伪分布式集群的安装配置
Hadoop 伪分布式的搭建(五)——Hadoop伪分布式集群的安装配置前面的基本环境准备完成之后,接下来就开始安装hadoop伪分布式环境,在这里选择安装Hadoop2.7.3版本,大家可以到官网或者其他的资源下载网站下载文件hadoop-2.7.3.tar.gz的安装包。...原创 2019-10-17 22:51:57 · 520 阅读 · 0 评论 -
Hadoop 伪分布式的搭建(五)——JDK的安装和环境变量的配置
Hadoop 伪分布式的搭建(五)——JDK的安装和环境变量的配置在运行Hadoop时需要Java,所以我们要安装Java的开发环境(JDK),在这里选择Java8版本安装hadoop环境,另外目前大多数CentOS 系统都会选择64位的版本,所以jdk也需要选择与相匹配的64位的版本。首先,先创建jdk的安装目录:/home/hadoop/app,具体操作如下:可以到官网或者一些其他的资源...原创 2019-10-16 21:02:13 · 629 阅读 · 1 评论 -
Hadoop伪分布式的搭建(四)—— 配置SSH免密码登录
Hadoop伪分布式的搭建(三)—— 配置SSH免密码登录SSH 是可以在应用程序中提供安全通信的一个协议,通过SSH可以安全的进行网络数据传输,它的主要原理就是利用非对称加密体系,对所有待传输的数据进行加密,保证数据在传输是不被破坏,泄露或者篡改,但是Hadoop使用SSH只要不是用来进行数据传输的,Hadoop只要是在启动和停止的时候需要主节点通过ssh协议将从节点上的进程启动或者停止,也就...原创 2019-10-14 23:36:20 · 2982 阅读 · 1 评论 -
Hadoop伪分布式的搭建(三)—— 创建用户和用户名
Hadoop伪分布式的搭建(三)—— 创建用户和用户名在Hadoop的安装过程中,为了系统安全考虑,一般不直接使用超级用户root,而是需要创建一个新的用户,在CentOS 中,可以直接使用useradd命令创建新用户。useradd的使用方法如图所示:接下来在控制台使用useradd 命令来新建一个普通用户hadoop,具体的具体操作如图所示:在创建用户时,有时指定了一个-m 的参数...原创 2019-10-14 20:55:14 · 1204 阅读 · 0 评论 -
Hadoop伪分布式的搭建(二)—— 配置hostname与IP抵制之间的对应关系
Hadoop伪分布式的搭建(二)—— 配置hostname与IP抵制之间的对应关系实际上不论是IP地址还是主机的用户名都是为了表示一台主机或者服务器,IP地址就是一台主机上网是的IP协议分配给他的一个逻辑地址,主机名就相当于又给这台机器取了一个名字,可以为主机取各种各样的名字,如果想要用这个名字其访问这台主机,就需要配置hostname与IP地址之间的对应关系。具体方法:查看主机的主机名,使...原创 2019-10-14 20:27:02 · 750 阅读 · 0 评论 -
Hadoop伪分布式的搭建(一)——关闭防火墙和禁用SELINUX
Hadoop伪分布式的搭建(一)——关闭防火墙和禁用SELINUX1:关闭防火墙:防火墙是对服务器进行保护的一种服务,但有时候会带来很多麻烦,他会妨碍Hadoop集群间的相互通信,所以我们要关闭防火墙。具体操作如下:在控制台中输入:chkconfig iptables off 命令,按回车键执行命令,即可关闭防火墙。执行完上述命令后,重启Linux系统,在控制台输入:reboot这样...原创 2019-10-14 20:05:05 · 1616 阅读 · 0 评论 -
为CentOS 6.5配置网络
为CentOS 6.5配置网络网卡IP地址配置的正确与否是两台服务器是否可以相互通信的前提,在Linux系统中,“一切皆文件”,因此,配置网络服务的工作其实就是在编辑网卡的配置能文件。在CentOS6.5中,网卡扥配置信息存储在 /etc/sysconfig/network-scripts 目录中,我们配置网络,其实就是配置 /etc/sysconfig/network-scripts 目录中...原创 2019-10-14 19:33:04 · 441 阅读 · 0 评论