hadoop实例
文章平均质量分 78
away30
这个作者很懒,什么都没留下…
展开
-
ambari安装详解
(一)准备工作1、准备几台机器10.1.51.100 ambariserver 本地mirrorserver及ambari server都在这一台机器10.1.51.10 master10.1.51.11 slave110.1.51.12 slave22、都创建管理用户hadoop3、做ssh免密码登录(ambariserver到其他机器的,hadoop用户)ssh转载 2017-09-26 10:58:51 · 1423 阅读 · 0 评论 -
抽取ORACLE表数据到HIVE
1 #!/bin/bash 2 ##----------------------------------------------------------------------------------------- 3 ##--程序名称:抽取ORACLE表数据到HIVE 4 ##--功能描述: 每日全量抽取。 5 ##--参 数:etl_date 业务日期 6 ##转载 2017-09-21 17:04:01 · 3851 阅读 · 0 评论 -
详解Windows7下使用Eclipse搭建hadoop开发环境
在Linux下使用安装Eclipse来进行hadoop应用开发,但是大部分Java程序员对linux系统不是那么熟悉,所以需要在windows下开发hadoop程序,所以经过试验,大讲台老师 总结了如何在windows下使用Eclipse来开发hadoop程序代码。转载 2017-09-20 15:34:34 · 1240 阅读 · 0 评论 -
hadoop运行wordcount实例
1.查看hadoop版本 [hadoop@ltt1 sbin]$ hadoop versionHadoop 2.6.0-cdh5.12.0Subversion http://github.com/cloudera/hadoop -r dba647c5a8bc5e09b572d76a8d29481c78d1a0ddCompiled by jenkins on 2017-06-29转载 2017-09-19 16:46:10 · 900 阅读 · 0 评论 -
hadoop-2.6.0源码编译
运行hadoop环境时,常常会出现这种提示WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 意思是无法加载本地native库。这里就需要我们自己本地进行编译hadoop源码,用生成转载 2017-09-19 15:50:36 · 652 阅读 · 0 评论 -
大数据架构师必读:常见的七种Hadoop和Spark项目案例
如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一些与这些新的大数据技术相关的事情,但它不需要很长的时间遇到相同的模式。具体的实施可能有所不同,但根据我的经验,它们是最常转载 2017-09-19 15:36:11 · 3268 阅读 · 0 评论 -
5节点Hadoop分布式集群搭建经验分享
本文我们使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA、ResourceManager+HA,并使用zookeeper来管理Hadoop集群。1.1 写在前面的话1.2 (一)HDFS概述1.2.1 基础架构1、NameNode(Master)1)命名空间管理:命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删转载 2017-09-19 13:12:33 · 1151 阅读 · 5 评论 -
用CombineFileInputFormat优化Hadoop小文件
我们都知道,HDFS设计是用来存储海量数据的,特别适合存储TB、PB量级别的数据。但是随着时间的推移,HDFS上可能会存在大量的小文件,这里说的小文件指的是文件大小远远小于一个HDFS块(128MB)的大小;HDFS上存在大量的小文件至少会产生以下影响:消耗NameNode大量的内存延长MapReduce作业的总运行时间本文将介绍如何在MapReduce作业层面上将大量的小文件合并,以转载 2017-09-18 17:28:44 · 979 阅读 · 0 评论 -
Hadoop小文件的优化
先来了解一下Hadoop中何为小文件:小文件指的是那些文件大小要比HDFS的块大小(在Hadoop1.x的时候默认块大小64M,可以通过dfs.blocksize来设置;但是到了Hadoop2.x的时候默认块大小为128MB了,可以通过dfs.block.size设置)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS转载 2017-09-18 17:43:18 · 497 阅读 · 0 评论 -
大规模Hadoop集群在腾讯数据仓库TDW的实践
随着业务的快速增长,TDW的节点数也在增加,对单个大规模Hadoop集群的需求也越来越强烈。TDW需要做单个大规模集群,主要是从数据共享、计算资源共享、减轻运营负担和成本等三个方面考虑。1. 数据共享。TDW之前在多个IDC部署数十个集群,主要是根据业务分别部署,这样当一个业务需要其他业务的数据,或者需要公共数据时,就需要跨集群或者跨IDC访问数据,这样会占用IDC之间的网络带宽。为了减少跨I转载 2017-09-18 14:22:49 · 689 阅读 · 0 评论 -
Hive几种参数配置方法
Hive提供三种可以改变环境变量的方法,分别是:(1)、修改${HIVE_HOME}/conf/hive-site.xml配置文件;(2)、命令行参数;(3)、在已经进入cli时进行参数声明。下面分别来介绍这几种设定。 方法一: 在Hive中,所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,转载 2017-09-14 13:47:18 · 1059 阅读 · 0 评论 -
IBM 11链接Hadoop最佳实践
大数据标志着业务分析的新时代到来,各商业组织现在有机会就数据在容量、速度和多样性的传统处理能力不足问题上作出更加明智的决策。IBM 具有得天独厚的优势, 可以提供全面的技术和服务, 从大数据中吸取可操作的洞察力,通过与如IBM InfoSphere BigInsights 为代表的Hadoop技术互链, IBM Cognos 商业智能现在可以轻松访问非结构化源数据, 从而使业务分析人员能够接触到大转载 2017-11-06 16:26:32 · 725 阅读 · 0 评论