- 博客(5)
- 资源 (16)
- 收藏
- 关注
转载 ambari安装,hadoop管理工具
Apache Ambari是对Hadoop进行监控、管理和生命周期管理的基于网页的开源项目。它也是一个为Hortonworks数据平台选择管理组建的项目。Ambari支持管理的服务有:Apache HBaseApache HCatalogApache Hadoop HDFSApache HiveApache Hadoop MapReduceApache OozieA
2014-04-17 16:11:23 7549
转载 Mahout安装与配置,以及结果查看
Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。Hadoop的安装网上很多,并不复杂,这里不再讲述,接下来阐述怎么安装Mahout。1:下载二进制解压安装。到http://labs.renren.com/apache-mirror/mahout/0.7下载,我选择下载二进制包,直接解压及可。hadoop@ubuntu:~$ tar -zxvf
2014-04-14 11:49:20 7416
转载 数据挖掘中的常用聚类算法-提纲
聚类相关的概念:相似性、距离度量(单连接、全连接、平均、质心、中心)、异常点算法分类:层次算法、划分算法层次算法:(凝聚、分裂)、谱系图的概念简单的凝聚算法——最近邻聚类:自增距离d至阀值、每次合并距离基于mst的层次凝聚聚类:从生成的mst上,根据距离合并簇分裂:基于mst的分裂,与上述mst凝聚相逆划分算法判定聚类
2014-04-14 11:45:00 6854
转载 hive mapjoin使用
今天遇到一个hive的问题,如下hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802)该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。为
2014-04-06 21:11:59 6560
转载 hive中简单介绍分区表
hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table partition_test(member_id string,name string)partition
2014-04-06 18:41:17 6588
SonarLint-3.5-for-intellj-idea-亲测好使.zip
2019-08-09
C#语言c/结构酒店管理系统_幽灵工作室提供
2013-05-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人