
大数据/数据挖掘
排骨瘦肉丁
目标-每日一更
展开
-
数据立方体与OLAP
前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构,以及事实表(Fact Table)和维表(Dimension Table)的概念。多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式,而真正体现其在分析上的优势还需要基于模型的有效的操作和处理,也就是OLAP(On-line Analytical Processing,联机分析处理)。数据立方体转载 2016-11-15 16:33:11 · 1479 阅读 · 0 评论 -
数据仓库的基本架构
数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用: 从图中可以看出数据仓库的转载 2016-11-15 15:48:40 · 520 阅读 · 0 评论 -
数据仓库的多维数据模型
可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取。多维数据模型的定义和作用 多维数据模型是为了满足用户从多角度多层次进行数据转载 2016-11-15 15:44:40 · 806 阅读 · 0 评论 -
MapReduce进阶:多路径输入输出
前言当我们得意于 MapReduce 从一个数据输入目录,把数据经过程序处理之后输出到另一个目录时。可能你正在错过一些更好的方案,因为 MapReduce 是支持多路径的输入与输出的。比如,你一个项目中的多个 Job 产生了多个输出路径,后面又需要另一个 Job 去处理这些不路径下的数据。你要怎么办?暂停程序后,手动处理?看完本文,我想你会给你的这种想法来上一记耳光。(说笑了,别当真)转载 2017-02-15 15:32:03 · 948 阅读 · 0 评论 -
MapReduce 进阶:Partitioner 组件
概述Partitioner 组件可以让 Map 对 Key 进行分区,从而将不同分区的 Key 交由不同的 Reduce 处理。如果这么说让你觉得有一些笼统的话,那么本文可能很适合你,因为本文会依据一个具体的实例进行讲解。版权说明著作权归原作者所有。 商业转载请联系原作者获得授权,非商业转载请注明出处。 本文转载自csdn文章:MapReduce 进阶:Part转载 2017-02-15 15:38:23 · 443 阅读 · 0 评论 -
MapReduce参数调优
MapReduce参数调优转载 2017-03-22 18:51:51 · 1004 阅读 · 0 评论 -
hadoop job 重要性能参数
hadoop job 重要性能参数转载 2017-03-22 18:55:22 · 546 阅读 · 0 评论 -
大数据时代的技术hive:hive介绍
大数据时代的技术hive:hive介绍转载 2017-03-22 19:02:15 · 757 阅读 · 0 评论 -
【性能优化】Hive优化
hive性能优化转载 2017-03-30 11:47:13 · 626 阅读 · 0 评论 -
hadoop对于压缩文件的支持
hadoop对于压缩文件的支持转载 2017-03-15 14:25:14 · 860 阅读 · 0 评论 -
Hadoop MapReduce处理海量小文件:压缩文件
Hadoop MapReduce处理海量小文件:压缩文件转载 2017-03-15 14:34:53 · 1379 阅读 · 0 评论 -
windows下运行spark程序报错:Failed to locate the winutils binary in the hadoop binary path
之前在mac上调试hadoop程序(mac之前配置过hadoop环境)一直都是正常的。因为工作需要,需要在windows上先调试该程序,然后再转到linux下。程序运行的过程中,报Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executab...转载 2018-04-10 10:10:50 · 6911 阅读 · 1 评论 -
解决A master URL must be set in your configuration错误
在运行spark的测试程序SparkPi时,点击运行,出现了如下错误:Exception in thread "main" org.apache.spark.SparkException: A master URL must be set in your configurationat org.apache.spark.SparkContext.<init>(SparkCon...转载 2018-04-10 11:19:30 · 2825 阅读 · 0 评论 -
org.apache.zookeeper.ClientCnxn: Opening socket connection to server localhost/127.0.0.1:218
在vmware中安装hadoop伪分布式,使用host-only模式使用hbase shell一直正常,后来为了能上网改为了Briged模式。启动后再命令端看到了关于hbase的异常信息org.apache.zookeeper.ClientCnxn: Opening socket connection to server localhost/127.0.0.1:2181. Will not a...转载 2018-04-11 10:15:37 · 11582 阅读 · 1 评论 -
hive2.1.1安装部署
Hive运行模式与 Hadoop 类似,Hive 也有 3 种运行模式: 1. 内嵌模式 将元数据保存在本地内嵌的 Derby 数据库中,这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显,因为一个内嵌的 Derby 数据库每次只能访问一个数据文件,这也就意味着它不支持多会话连接。 2. 本地模式 这种模式是将元数据保存在本地独立的数据...转载 2018-04-17 10:49:09 · 447 阅读 · 0 评论 -
JAVA api 远程hbase出错 org.apache.hadoop.hbase.client.RetriesExhaustedException
问题:JAVA api 远程hbase出错 org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=36, exceptions: Tue Jul 19 16:36:05 CST 2016, null, java.net.SocketTimeoutException: callTimeo...转载 2018-04-11 10:55:09 · 6223 阅读 · 0 评论 -
hadoop常用命令(随时更新)
* 文件操作 * 查看目录文件 * $ hadoop dfs -ls /user/cl * * 创建文件目录 * $ hadoop dfs -mkdir /user/cl/temp * * 删除文件 * $ hadoop dfs -rm /user/cl/temp/a.txt * * 删除目录与目录下所有文件 * $ hadoop dfs -rmr /u转载 2017-02-15 10:49:08 · 372 阅读 · 0 评论 -
kylin1.6.0构建build测试cube出错
安装好kylin以及所需的环境之后,在build测试cube之后,发现出现了如下错误:2017-02-07 11:47:34,278 ERROR [pool-9-thread-2] execution.AbstractExecutable:370 : job:63a77287-4de9-44aa-a714-a40c780dec22-01 execute finished with except原创 2017-02-08 11:46:20 · 6346 阅读 · 14 评论 -
错误:no such method error:org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashLong(J)I
在玩hadoop的实例的时候,发现了这么一个错误:Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.yarn.proto.YarnProtos$LocalResourceProto.hashLong(J)Iat org.apache.hadoop.yarn.proto.YarnProtos$L原创 2016-10-26 16:07:22 · 4574 阅读 · 0 评论 -
java api 远程访问hdfs
java api 远程访问hdfs转载 2016-10-26 17:51:49 · 3426 阅读 · 0 评论 -
hadoop命令详解
本文转载自:http://www.cnblogs.com/linjiqin/p/3147856.html一、用户命令1、archive命令(1).什么是Hadoop archives?Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元转载 2016-10-26 18:03:39 · 670 阅读 · 0 评论 -
hbase 常用shell命令
本文转载自:http://www.cnblogs.com/nexiyi/p/hbase_shell.html进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户转载 2016-10-26 18:26:07 · 543 阅读 · 0 评论 -
java api与hbase交互
本文转载自:http://www.cnblogs.com/ggjucheng/p/3381328.htmlimport java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.ha转载 2016-10-26 18:30:12 · 303 阅读 · 0 评论 -
hbase 1.x 增删改查,建表、删表等
本文转载自:http://blog.csdn.net/rkjava/article/details/48789683import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.*; import org.apache.hadoop.hbase.client.*; import org.apa转载 2016-10-26 18:33:27 · 873 阅读 · 0 评论 -
Apache Kylin的Top-N近似预计算
时间 2016-08-08 08:00:00 InfoQ原文 http://www.infoq.com/cn/news/2016/08/Apache-Kylin-Top-N本文:http://www.tuicool.com/articles/qimeyaeApache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能转载 2016-11-17 11:12:39 · 1311 阅读 · 0 评论 -
HIVE和HBASE区别
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种K转载 2016-11-15 17:26:34 · 258 阅读 · 0 评论 -
Apache Kylin蝉联两次InfoWorld最佳开源大数据工具奖
InfoWorld是致力于引领IT决策者走在科技前沿的国际科技媒体品牌。由InfoWorld评选出的年度科技奖项 Bossie Awards根据软件对开源界的贡献,以及在业界的影响力评判获奖对象,被认为是当今IT界质量最高,最具创新能力的项目。本次InfoWorld评选出了12款最佳的开源大数据项目,相比2015年获奖名单,HBase、Hive等元老都没有上榜,值得关注的是Apache Kylin转载 2016-11-15 17:42:58 · 428 阅读 · 0 评论 -
Kylin 与 Spark SQL相比,有哪些差异和优势
SparkSQL本质上是基于DAG模型的MPP。而Kylin核心是Cube(多维立方体)。关于MPP和Cube预处理的差异,重复如下: > MPP [1] 的基本思路是增加机器来并行计算,从而提高查询速度。比如扫描8亿记录一台机器要处理1小时,但如果用100台机器来并行处理,就只要一分钟不到。再配合列式存储和一些索引,查询可以更快返回。要注意这里在线运算量并没有减小,8亿条记录还是要扫描一转载 2016-11-25 17:49:57 · 6291 阅读 · 0 评论 -
hive1.2.1安装
准备:hadoop-2.7.3伪分布式环境 linux centos6 hive-1.2.1.tar.gz包安装:1.解压:tar zxvf apache-hive-1.2.1-bin.tar.gz 解压到当前目录 2.hive的环境变量etc/profile文件,可配可不配 3.修改hive根目录下的conf文件夹下的两个模板文件cp hive-e原创 2017-02-06 17:31:16 · 969 阅读 · 0 评论 -
Kylin构建cube时状态一直处于pending
在安装好kylin之后我直接去访问web监控页面发现能够进去,也没有去看日志。然后在运行官方带的例子去bulid cube时去发现状态一直是pending而不是runing。这个时候才去查看日志:12345678910111213141516转载 2017-02-07 11:55:45 · 4593 阅读 · 0 评论 -
opentsdb Writing Data
OpenTSDB will automatically aggregate all of the time series for the metric in a query if no tags are given. If one or more tags are defined, the aggregate will 'include all' time series that match翻译 2017-02-08 14:51:31 · 1029 阅读 · 0 评论 -
hdfs命令上传整个文件夹
hadoop dfs -put /home/root/apache-hive-1.2.1-bin/lib/ /home/root/apache-hive-1.2.1-bin/将lib整个文件夹包括文件夹下面的所有文件上传到hdfs对应的目录下。原创 2017-02-09 13:40:44 · 26707 阅读 · 0 评论 -
flume-ng的原理和使用
1. 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failov转载 2017-02-23 12:01:10 · 1156 阅读 · 0 评论 -
【HBase-1.2.3】HBase1.2.3 的安装
本文主要介绍HBASE1.2.0 的安装,安装过程发现有个别的地方于0.98 版本不太一样,请各位注意。本文可以参考HBase0.98 的安装:http://blog.csdn.net/shenfuli/article/details/46415825JDK版本和HBASE对应关系HBase VersionJDK 6JDK 7JD转载 2016-10-21 14:08:40 · 4291 阅读 · 0 评论