关闭
当前搜索:

【Hadoop】HDFS基本命令

1. 创建目录[grid@master ~]$ hadoop fs -mkdir /test2. 查看文件列表[grid@master ~]$ hadoop fs -ls / Found 3 items drwxr-xr-x - grid supergroup 0 2018-01-08 04:37 /test drwx------ - grid supergroup ...
阅读(24) 评论(0)

【Hadoop】同步集群时间

转载:hadoop集群时间同步测试环境:192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:09 CST 2017选择时...
阅读(27) 评论(0)

【Hadoop】MapReduce

MapReduce是一个分布式计算框架,支持编写程序处理大数据集。 Hadoop 0.20.0以及之前版本,MapReduce由JobTracker和TaskTracker组成。JobTracker是运行在主节点上的后台进程,监听各个TaskTracker发来的心跳,包括资源使用情况和任务运行情况等信息。TaskTracker是运行在从节点上的进程,它一方面将本地节点上各个任务的状态通过心跳,周...
阅读(37) 评论(0)

【Hadoop】HDFS数据复制

为了保证存储文件的可靠性,HDFS把文件分解成多个序列块,并保存数据块的多个副本。这对容错非常重要,当文件的一个数据块损坏时,可以从其他节点读取数据块副本。HDFS有“机架感知”策略放置文件副本,因为同一机架的带宽大于跨机架的带宽,所以在一个复制因子默认为3的系统中,HDFS会把备份一份保存在本地节点,另外一份保存在同一机架的其他节点,最后一份保存在其他机架节点,这样既保证了文件安全性,又能提高写...
阅读(35) 评论(0)

【Hadoop】HDFS三组件:NameNode、SecondaryNameNode和DataNode

HDFS主要由三个组件构成,分别是NameNode、SecondaryNameNode和DataNode,其中NameNode和SecondaryNameNode运行在master节点上,DataNode运行在slave节点上。 HDFS架构如下图: 1. NameNode NameNode管理HDFS文件系统的命名空间,它维护文件系统树及树中的所有文件和目录。同时NameNode也...
阅读(41) 评论(0)

【Hadoop】Hadoop生态圈基本组件介绍

1. HDFS HDFS(Hadoop分布式文件系统)源于Google在2003年10月发表的GFS论文,HDFS是GFS的实现。HDFS通过流式数据访问,适合大数据集访问的应用程序。HDFS有一次写入多次读取的机制,数据已块的形式,同时分布在集群的不同物理机器上。 2. MapReduce MapReduce(分布式计算框架)源于Google在2004年12月发表的MapReduce论文,...
阅读(54) 评论(0)

【Hadoop】安装Apache Hadoop

一、环境介绍 本篇博客介绍手工安装Apache Hadoop的过程,建立VMware上建立三台Linux虚拟机,每台硬盘20G,内存1G。 1. 环境版本 操作系统:CentOS 6.7 Java版本:jdk-7u79-linux-x64.tar Hadoop版本:hadoop-2.7.5 2. 主机规划 192.168.56.101 master 192....
阅读(89) 评论(0)

【数据仓库】大数据定义

2012年Gartner公司将大数据定义为3V,即:大容量(Volume)、高流速(Velocity)、多样化(Variety),后来人们在3V基础上增加新的V-"Veracity",即真实性。现在人们普遍认可的大数据是具有4V,即:Volume、Velocity、Variety、Veracity,也就是大、快、多、真。 1. Volume(生成和存储的数据量大) 随着技术的发展,人们收集信息...
阅读(129) 评论(0)

【数据仓库】数据集市

概念 数据集市是数据仓库的一种简单形式,通常由组织内的业务部门自己建立。一个数据集市面向单一主题,如销售、财务、市场等。数据集市的数据源可以是是操作型系统(独立数据集市),也可以是数据仓库(从属数据集市)。 数据集市与数据仓库的区别 数据集市设计 数据集市主要用于部门级别的分析型应用,数据大都经过了综合,粒度级别较高。数据集市一般采用维度模型设计方法,数据结构使用星型模型或雪花模型...
阅读(61) 评论(0)

【Oracle】数据库范式

为了规范化关系型数据模型,关系型数据库系统在设计时必须遵循一定的规则,这种规则称为关系型数据库系统范式。范式的主要目的是降低数据冗余,设计结构合理的数据库。 1. 第一范式(1NF):字段必须具有唯一属性特征,不可再拆分 简单理解为“列不可再分”,比如,员工表中的姓名字段,如果只包含中文姓名则符合1NF,如果包含中文和英文姓名则此字段是可以拆分的,那么就不符合1NF。 2. ...
阅读(36) 评论(0)

【数据仓库】Inmon与Kimball数仓理论对比

Inmon和Kimball是数据仓库领域伟大的开拓者,他们均多年从事数据仓库的研究,Inmon还被称为“数据仓库之父”。Inmon的《数据仓库》和Kimball的《数据仓库工具箱》都是此领域的经典之作。后来人把这两人的数据仓库思想总结为“Inmon理论”和“Kimball理论”。他们的思想有共同点,也有不同点。下面按照我的想法总结一下,理解如有偏颇,还请多多指正。 1. 共同点 (1)均极力推...
阅读(79) 评论(0)

【Oracle】添加注释(COMMENT ON)

在数据库中创建表以后,有时需要添加表或者列的描述信息,也就是注释。这样当后来者查看表结构时,就可以清楚的知道表或者字段的含义。 1. 语法 COMMENT ON   { TABLE [ schema. ]     { table | view }   | COLUMN [ schema. ]     { table. | view. | materialized_view. }...
阅读(45) 评论(0)

【数据仓库】数据仓库设计前如何粗估所需的存储空间大小?

设计数仓前,粗略估计其所占空间大小是非常重要的。只有估计出空间大小,才能确定数仓将要在什么粒度级别下进行设计。下图给出基本步骤: (1)确定数据仓库中将要创建的所有表 通常情况下,总是有一到两个非常大的表和一些小表。 (2)估计每张表中行的大小 不需要确切的大小,只需要一个上限和一个下限。 (3)估计一年内表中可能的最少行数和最多行数 (4)使用和估计一年所占空间大小同样的方法...
阅读(58) 评论(0)

【数据仓库】数据仓库的发展史

数据仓库的起源可以追溯到计算机的发展初期,并且数据仓库是信息技术长期发展的产物,在以后也会一直发展。 (1)主文件、报表 20世纪60年代初期,计算机领域的主要工作是创建运行在主文件上的单个应用。这些应用是以报表处理和程序为特征的,一般是以某种早期的程序设计语言如Fortran或COBOL编写的。主文件存储在廉价的磁带上面,其缺点是只能顺序访问。比如我们想得到磁带上第20分钟处的数据,那时必须...
阅读(75) 评论(0)

【Excel-2010】日期函数

1. TODAY()、NOW() TODAY()返回系统当前日期:“YYYY-MM-DD” NOW()返回系统当前日期和时间:“YYYY-MM-DD HH:MI:SS” 其中TODAY()和NOW()输入的时间和日期都是动态的,随系统变化,快捷键输入的日期和时间是静态的。 2. DATE(year,month,day) 返回指定的日期,三个参数依次对应年、月、日,参数不能...
阅读(118) 评论(0)

【Excel-2010】VLOOKUP函数

一、什么是VLOOKUP函数? 在表格的首列查找指定的数据,并返回指定数据所在行的指定列处的单元格内容。第一次看这个解释很令人费解,但用几次再回头看这句话,就什么都明白了。 此函数格式为: VLOOKUP(lookup_value,table_array,col_index_num,range_lookup) lookup_value:指在表格或选定区域第一列中要查找的值; table_...
阅读(180) 评论(0)

【Excel-2010】人口金字塔图

人口金字塔是按人口年龄和性别表示人口分布的特种塔状条形图,是形象地表示某一人口的年龄和性别构成的图形。 人口金字塔图,以图形来呈现人口年龄和性别的分布情形,以年龄为纵轴,以人口数为横轴,按左侧为男、右侧为女绘制图形,其形状如金字塔。金字塔底部代表低年龄组人口,金字塔上部代表高年龄组人口。人口金字塔图反映了过去人口的情况,目前人口的结构,以及今后人口可能出现的趋势。 人口金字塔可分为三种类型...
阅读(500) 评论(0)

【Excel-2010】瀑布图

瀑布图,也称作步行图、阶梯图,在企业的经营分析、财务分析中经常使用,可用于表示成本构成、变化等情况。绘制瀑布图时,需要用到堆积柱形图,只不过是把堆积柱形图中的一部分隐藏起来,呈现的效果就是像瀑布一样从上而下。下面是一个瀑布图的例子。 下表为某企业的成本构成数据: 我们需要先使用占位数据和成本绘制堆积柱形图,然后再隐藏占位数的柱状图部分,从而形成瀑布图。其中:第N个占位数据大小=(总成本...
阅读(261) 评论(0)

【数据分析】目标优化矩阵表确定权重

在数据分析过程中,某一分析结果可能不能通过数据直观的看出,而是需要把多个指标综合在一起进行评价从而得到最终结果。综合评价分析过程中,经常遇到的问题就是各个指标如何确定在总评分中所占比例,也就是权重。确定权重的方法有多种,这篇博文介绍比较简单的方法——目标优化矩阵表。(本篇博文参考《谁说菜鸟不会数据分析(入门篇)》) 1. 什么是目标优化矩阵表? 目标优化矩阵的工作原理就是把人脑的模糊思维,简化...
阅读(189) 评论(0)

【Excel-2010】空值替换

空值是数据表中常见的数据缺失值的表现形式,在Excel中,空值以空白单元格的形式存在。如想把这些空值统一替换为某一值,可以按照如下步骤: 1. 选中要筛选的单元格范围。 2.使用快捷键“Ctrl+G”,弹出“定位”对话框,单击“定位条件”按钮,弹出“定位条件”对话框。 3. 在“定位条件”对话框中选择“空值”,单击“确定”按钮,数据表中空值将会以特殊颜色显示。 4. 输入想替换为的值,比如...
阅读(178) 评论(0)
200条 共10页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:71196次
    • 积分:2643
    • 等级:
    • 排名:第15907名
    • 原创:198篇
    • 转载:2篇
    • 译文:0篇
    • 评论:0条
    关于博主
      详细资料
      姓名:刘国瑞
      生日:1991.09
      学历:本科
      专注:数据仓库
      微信:lgr104356123
    文章分类
    友情链接