![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
文章平均质量分 66
克念
这个作者很懒,什么都没留下…
展开
-
数据仓库历史演化阅读心得
什么是数据仓库?直观的理解,数据仓库就是大量数据的集合。从古代起,人类一开始通过打结记事,到后来使用文字记事。但是这些方式的信息量都特别少。直到近代大量计算机的使用,还有互联网的迅速崛起,产生了海量的数据。 作为一个企业,在运行的过程中必然会产生大量的数据用于记录企业的运行过程,比如订单信息、用户的操作信息等等。这些信息随着时间的推移,会越来越多的存储在我们的数据系统和文件系统之中。那么,原创 2016-12-29 10:55:46 · 1392 阅读 · 0 评论 -
Informatica 静态组件和动态组件
所谓的Passive组件,也就是静态组件,它的特点是: 来一行数据,我处理一下,然后输出一行数据。 可以看右图简单的示意图如果是Active组件,那么输入的数据和最终输出的数据是不一定对等的。 我自己的感觉中,Active组件更像是系统中的临时表。我们的数据经过了Active组件的时候,会被全部先加载到临时表中,等数据加载完以后,再做一些临时表相关的操作。比如:分组,关原创 2016-12-29 10:56:33 · 1125 阅读 · 0 评论 -
Hadoop java运行时内存不足
服务器是一个云服务器,内存为1G,CPU为1核。然后执行一个Hadoop本身自带的example报错的。报错信息如下:There is insufficient memory for the Java Runtime Environment to continue.Native memory allocation (mmap) failed to map 12288 bytes for commi...原创 2018-04-11 14:51:39 · 2586 阅读 · 0 评论 -
Hadoop 伪分布式搭建(2.6.5)
Hadoop2和Hadoop1是不一样的,所以专门为了Hadoop2 做了一个记录。 我的环境是Ubuntu 16.4 首先确保Java已经安装完毕,并且环境变量已经配置OK,具体的细节我就不在这里讲解了。 然后确保ssh已经安装好,sshd需要启动并且使用Hadoop的脚本管理远程的Hadoop节点。 安装ssh相关:sudo apt-get install sshsudo apt-...原创 2018-04-11 14:52:11 · 436 阅读 · 0 评论 -
Hadoop 伪分布式环境, jobhistory 配置信息引起的报错
Hadoop 版本 2.6.5 Ubuntu Linux 伪分布式环境之前我的Hadoop环境因为运行时报了下面的错误:ava.io.IOException: java.net.ConnectException: Call From localhost.localdomain/127.0.0.1 to 0.0.0.0:10020 failed on connection exception: ...原创 2018-04-11 18:17:05 · 1091 阅读 · 0 评论 -
CDH 5.12 spark升级从1.6到2.2
CDH5.12对应spark版本下载Spark升级包CSD文件下载SPARK2_ON_YARN-2.1.0.cloudera1.jarparcels包下载因为我的Linux版本是centos7,因此下载下面的两个包SPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354-el7.parcelSPARK2-2.2.0.cloudera1-1.cdh5....原创 2019-04-19 22:58:05 · 742 阅读 · 0 评论 -
spark本地开发环境搭建(maven + scala + java)
开发工具和软件版本信息 IDEA 2019.2 JAVA 1.8 Scala 2.11.12 Spark 2.4.3 Hadoop 2.7.7 Windows ...原创 2019-06-23 13:11:18 · 1529 阅读 · 1 评论