大数据
不觉-
这个作者很懒,什么都没留下…
展开
-
大数据环境安装!Linux系统上的Hadoop伪分布式!
一、伪分布式安装 2.7.6版本 官网安装过程 http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation 下图中,配置各个模块时的键值对书写的地方:<configur...原创 2018-06-12 09:29:18 · 156 阅读 · 1 评论 -
linux集群的时间同步
Linux系统一般用作服务器,当然,一台服务器是万万不够的,所以就需要很多,机器多了就会出现时间不同步的问题,所以就需要设置时间同步! 那么需要怎么设置时间同步?一般集群中只会有一台机器拥有访问外网的权限!这台可以访问外网的机器同步外网的时间,!那么所有的没有访问外网权限的节点机器,都去同步拥有访问外网权限的节点机器! 这样的好处是:就算外网断网了,拥有访问外网权限的节点机器时...原创 2018-06-20 17:58:36 · 1052 阅读 · 0 评论 -
Hadoop分布式集群环境部署!
1. 机器准备1.1三台机器的目录结构,用户,用户权限都必须完全一致!且在同一网段 为了方便管理,ip等用一下设置: ip hostname 192.168.59.162bigdata-hpsk02.com bigdata-hpsk02 ...原创 2018-06-21 00:23:02 · 340 阅读 · 0 评论 -
大数据,这些你了解了么?
一.Hadoop的起源 谈到大数据,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础! Google FS---------> HDFS MapReduce-------> MapReduce BigTable------...原创 2018-06-09 00:07:32 · 225 阅读 · 2 评论 -
学习大数据,你必须知道的(学习基础,需要学习,的存储机制,行存储和列存储的对比)
一、学习大数据需要的基础 java SE,EE(SSM) 90%的大数据框架都是java写的 MySQL SQL on Hadoop Linux 大数据的框架安装在Linux操作系统上二、需要学什么 2.1:大数据离线分析 一般处理T+1数据 (T+1:T表示处理时间(一天,一周,或者一月,一般不会一年处理一次数据) +1:表示处理一次数据) Hadoop :(common、HDF...原创 2018-06-09 00:21:24 · 756 阅读 · 0 评论 -
HIVE基础入门学习(必会!!附带jar包)
hive介绍 Apache的顶级项目,(是一个java程序) Facebook公司(2008年)开源给Apache基金会! hive官网: http://hive.apache.org/ hive到底是干什么的 将SQL转换成MapReduce程序,并将程序提交到YARN集群运行,不会自动生成结果文件, 直接读取HDFS上的数据进行处理. sql query(查询):它的查询类似于MySQL...原创 2018-06-26 13:51:19 · 2233 阅读 · 1 评论 -
事实表和维度表的定义
一个典型的例子是,把逻辑业务比作一个立方体,产品维、时间维、地点维分别作为不同的坐标轴,而坐标轴的交点就是一个具体的事实。也就是说事实表是多个维度表的一个交点。而维度表是分析事实的一个窗口。 首先介绍下数据库结构中的星型结构,该结构在位于结构中心的单个事实数据表中维护数据,其它维度数据存储在维度表中。每个维度表与事实数据表直接相关,且通常通过一个键联接到事实数据表中。星型架构是...原创 2018-08-26 23:29:46 · 14772 阅读 · 4 评论 -
kafka能不能作为数据存储,你不知道的秘密!
Kafka你不知道的秘密! 人们总是问是否可以把 Kafka 作为长期的数据存储来使用,很显然,如果把数据保留策略设置为“永久”或者启用主题的日志压缩功能,那么数据就可以被永久保存下来。但我觉得人们其实真正想知道的是,这样做是不是很疯狂。简而言之,这样做不算疯狂。实际上,人们一直都在这么做,而且 Kafka 的设计意图之一就是要将它作为数据存储系统。不过问题是,为什么我们要把 Kafk...转载 2018-08-21 16:48:01 · 11123 阅读 · 0 评论 -
什么是数据分层,数据分层的作用!
大数据环境下该如何优雅地设计数据分层0x00 前言最近出现了好几次同样的对话场景:问:你是做什么的?答:最近在搞数据仓库。问:哦,你是传统行业的吧,我是搞大数据的。答:......发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使...转载 2018-08-25 11:04:36 · 22352 阅读 · 0 评论