Hadoop
常飞梦
10年以上工作经验,8年以数据库管理、开发经验,对数据库优化和架构有比较深的了解。
展开
-
10个Hadoop的应用场景
谁在用 Hadoop这是个问题。在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深。但谁才是Hadoop的最大用户呢?首先想到的当然是它的“发源地”,像Google这样的大型互联网搜索引擎,以及Yahoo专门的广告分析系统。也许你会认为,Hadoop平台发挥作用的领域是互联网行业,用来改善分析性能并提高扩展性。其实 Hadoop的转载 2012-10-29 12:28:34 · 1120 阅读 · 0 评论 -
hadoop学习之-Sqoop与关数据库(mysql)之间导入实践
一、 Sqoop概述Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如: MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。 二、 Sqoop安装配置软件下载:Sqoop官方版本:http://apac原创 2013-01-25 16:23:41 · 9487 阅读 · 1 评论 -
hive学习笔记之-数据操作
1. 导入数据到管理表因为Hive不支持事务,所以没有行级别的insert,update,delete操作,仅支持使用加载的方式把数据导入到表中。 --加载数据到分区表的例子LOAD DATA LOCAL INPATH '${env:HOME}/california-employees'OVERWRITE INTOTABLE employeesPARTITION(count原创 2014-01-27 16:52:46 · 13543 阅读 · 0 评论 -
Cloudera Manager5及CDH5在线安装(cloudera-manager-installer.bin)
一、 准备工作 1. 需求条件网速好因为是线上安装,所以要求要有比较大的带宽,特别是并行安装台服务器时。 网络稳一旦网络中断,可能你花费了半天或则一天的时间,就有可能会浪费,然后重装。 内存大最少要求10G以上内存,特别NameNode节点分配的角色较多,占用内存会更多。 2. 安装环境 安装版本OS:CentOS 6.7CM:Cloudera Manager5.7CHD:Clo原创 2016-06-02 10:52:04 · 27986 阅读 · 0 评论 -
用以生产环境的Hadoop版本比较
一、背景介绍生产环境中,Hadoop的版本选择是一个公司架构之时,很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见,或者指正,希望大家能交流。Apache Hadoop:Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司转载 2016-06-02 11:06:41 · 14149 阅读 · 1 评论 -
sqoop导入mysql到HDFS时报错:java.lang.NoClassDefFoundError: org/json/JSONObject
问题1:sqoop import导入时报java.lang.ClassNotFoundException: org.json.JSONObject 错误[root@hadoop1 lib]# sqoop import --connect jdbc:mysql://10.1.32.8:3306/test --username sqoop --password sqoop --table t1 -m原创 2016-06-07 10:22:48 · 12218 阅读 · 2 评论 -
Hadoop Shell命令
FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzFS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用原创 2016-06-07 11:19:26 · 4363 阅读 · 0 评论 -
Hive CLI – Migrating to Beeline
Hive Beeline的用法转载:http://www.teckstory.com/hadoop-ecosystem/hive-new-cli-beeline-for-hive/Hive is the data warehouse software of Hadoop ecosystem. It provides a mechanism to project structure onto lar转载 2016-06-21 16:51:49 · 10435 阅读 · 0 评论 -
异常解决:util.NativeCodeLoader: Unable to load native-hadoop library for your platform
刚装好Hadoop的时候,每次输入命令运行都会出现:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-Java classes where applicable提示hadoop不能加载本地库。以前官网会提供32位的安装包,但目前提供的下载包为64位的,在转载 2017-03-04 15:41:47 · 7922 阅读 · 1 评论 -
用Maven构建Hadoop项目
Hadoop的MapReduce环境是一个复杂的编程环境,所以我们要尽可能地简化构建MapReduce项目的过程。Maven是一个很不错的自动化项目构建工具,通过Maven来帮助我们从复杂的环境配置中解脱出来,从而标准化开发过程。所以,写MapReduce之前,让我们先花点时间把刀磨快!!当然,除了Maven还有其他的选择Gradle(推荐), Ivy等 1. Maven介绍Apach原创 2014-01-17 16:10:39 · 16390 阅读 · 5 评论 -
异常:Project configuration is not up-to-date with pom.xml解决方案
一、异常信息:导入maven工程后,出现如下错误: Description Resource Path Location TypeProject configuration is not up-to-date with pom.xml. Run project configuration update rdc line 1 Maven Config原创 2017-03-07 09:56:55 · 31358 阅读 · 8 评论 -
用Hue中的Oozie执行Impala Sheel脚本
在Oozie中不能像执行hive SQL那样直接执行impala SQL脚本。目前没有Impala操作,因此你必须使用调用impala-shell的shell操作。调用impala-shell的shell脚本中还必须包含设置PYTHON EGGS位置的环境变量。这是一个shell脚本(impala_overwrite.sh)示例: export PYTHON_EGG_CACHE=./myeggs ...原创 2018-03-01 15:14:58 · 4780 阅读 · 4 评论 -
CM启动 Oozie 服务器 Web 控制台
默认情况下Cloudera Manager是没有开启Oozie web console的。在打开Oozie Web UI时会出现下面的错误:http://172.16.29.10:11000/oozie/Oozie web console is disabled.To enable Oozie web consoleinstall the Ext JS library.Oozie web cons...原创 2018-04-23 08:58:58 · 1392 阅读 · 0 评论 -
NameNode Last Checkpoint报错误[Checkpoint Critical]
问题:HDP重启后,NameNode Last Checkpoint报错误[Checkpoint Critical] 问题解决:原理:HDP中的hdfs组件默认的dfs.namenode.checkpoint.period和dfs.namenode.checkpoint.txns分别是6个小时和1000000。只要达到这两个条件之一,secondarynamenode会执行c...原创 2018-07-19 17:39:11 · 4375 阅读 · 0 评论 -
在CDH5.14上离线安装Spark2.3
在先前装的CDH5.14集群中,默认安装的spark是1.6.0版本。我们现在可以现有的集群中再装spark2.x版本,能和spark1.6版本并存。当前CDH支持的Spark2.X最新版本是Spark2.3.0,目前Apache Spark最近版本是2.3.1,即CDH的版本更新是慢半拍的,但基本上不影响使用。下面是在CDH中安装Spark2.3的步骤:这是官方给出安装和升级方法说...原创 2018-08-30 17:52:53 · 11706 阅读 · 2 评论 -
通过CDH5 Hadoop读取和写入OSS数据
本页目录准备工作步骤一:增加 OSS 配置步骤二:配置 Impala 对 OSS 的支持 验证配置 参考文档CDH(Cloudera's Distribution, including Apache Hadoop)是众多 Hadoop 发行版本中的一种,最新版本 CDH6.0.1 中的 Hadoop3.0.0 版本已经支持 OSS。CDH5 中的 Hadoop2.6 版本不支持...原创 2019-03-21 11:43:58 · 1762 阅读 · 0 评论 -
hadoop学习笔记-生产环境hadoop集群安装
生产环境Hadoop大集群完全分布式模式安装2013-3-7 安装环境操作平台:vmware2操作系统:Oracle Enterprise Linux 5.6软件版本:hadoop-0.22.0,jdk-6u18集群架构:3+ node,master node(hotel01),slave node(hotel02,hotel03…)主机名原创 2014-02-12 09:42:21 · 1975 阅读 · 0 评论 -
如何在Hadoop中控制Map的数量
很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文件都占据了一个block),那么很可能造成启动的Mapper数量超出限制而导转载 2014-02-22 21:08:24 · 1285 阅读 · 0 评论 -
Hadoop 添加数据节点(datanode)
前提条件:安装jdk-6u18 实现目的:在hadoop集群中添加一个新增数据节点。 1. 创建目录和用户mkdir /app/hadoopusergroup hadoopuseradd licz -ghadoop -d /app/hadoopchownlicz:hadoop /app/hadoop 2. 修改环境变量[licz@serve原创 2014-02-12 14:46:12 · 20103 阅读 · 0 评论 -
安装hadoop错误一则:/tmp/hadoop-grid/mapred/system/jobtracker.info could only be replicated to 0 nodes
现象:--节点进程显示都是正常的呀[grid@gc logs]$ /usr/java/jdk1.6.0_18/bin/jps4434 JobTracker4346 SecondaryNameNode4194 NameNode8291 Jps[grid@rac1 conf]$ /usr/java/jdk1.6.0_18/bin/jps32423 Jps2922原创 2012-11-26 15:39:05 · 5052 阅读 · 1 评论 -
hadoop群集中添加节点步骤
1.在新节点安装好hadoop2.把namenode的有关配置文件复制到该节点3.修改masters和slaves文件,增加该节点4.设置ssh免密码进出该节点5.单独启动该节点上的datanode和tasktracker #hadoop-daemon.sh start datanode #hadoop-daemon.sh start tasktracker (或是重启原创 2012-11-27 15:56:22 · 938 阅读 · 0 评论 -
hadoop回收站功能
回收站简介在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash回收站里的文件可以快速恢复。可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。hadoop 的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启 --手动开启trash功能,添加fs.tras原创 2012-11-28 17:28:48 · 6527 阅读 · 0 评论 -
hadoop相关软件下载
hadoop相关软件下载http://archive.apache.org/dist/hadoop/原创 2012-11-21 11:47:02 · 1179 阅读 · 0 评论 -
hadoop学习笔记之-hbase完全分布模式安装
安装环境:OS: Oracle linux 5.6JDK: jdk1.6.0_18Hadoop: hadoop-0.20.2Hbase: hbase-0.90.5 安装准备:1. Jdk环境已安装:版本为1.6以上2. hadoop环境已安装:完全分布模式安装如下http://blog.csdn.net/lichangzai/ar原创 2012-12-27 09:50:59 · 9043 阅读 · 0 评论 -
hadoop学习之-使用ODCH工具实现oralce外部表访问HDFS数据文件
实验说明:本实验目的是通过使用Oracle的HDFS直接连接器从oracle数据库的外部表中直接访问HDFS的数据文件。支持的数据文件格式取决于ORACLE_LOADER的驱动程序。 一、 安装准备1. 软件下载:Oracle Big Data Connectors:ODCHhttp://www.oracle.com/technetwork/bdc/b原创 2013-01-25 16:31:24 · 12356 阅读 · 0 评论 -
hadoop学习笔记之-pig安装及操作实例
Pig概述: Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作,是一种探索大规模数据集的脚本语言。 pig是在HDFS和MapReduce之上的数据流处理语言,它将数据流处理翻译成多个map和reduce函数,提供更高层次的抽象将程序员从具体的编程中解放出来,对于不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言pig原创 2013-01-25 16:37:55 · 5511 阅读 · 0 评论 -
hadoop学习笔记之-NFS配置
一、实验环境:系统版本:Red Hat Enterprise Linux Server release 5.6主机名别名IP系统版本共享目录/挂载点hotel01hotel01.licz.com192.168.2.111OEL5.6共享目录/home/gr原创 2013-03-07 13:48:41 · 5450 阅读 · 0 评论 -
hadoop学习笔记之-使用bind配置DNS实验
使用bind配置DNS实验 一、实验环境:Red Hat Enterprise Linux Server release 5.6主机名IP系统版本Host rolehotel01192.168.2.111OEL5.6serverhotel021原创 2013-03-07 10:54:37 · 2820 阅读 · 0 评论 -
hadoop学习笔记之--完全分布模式安装
Hadoop完全分布式模式安装步骤 Hadoop模式介绍单机模式:安装简单,几乎不用作任何配置,但仅限于调试用途伪分布模式:在单节点上同时启动namenode、datanode、jobtracker、tasktracker、secondary namenode等5个进程,模拟分布式运行的各个节点完全分布式模式:正常的Hadoop集群,由多个各司其职的节点构成 安装环原创 2012-11-21 10:45:15 · 11347 阅读 · 0 评论 -
Hadoop文档资料
Hadoop中文学习文档:http://hadoop.apache.org/docs/r0.20.2/cn/index.html原创 2012-10-29 12:19:18 · 1115 阅读 · 0 评论 -
eclipse配置hadoop mapreduce开发环境
环境:Eclipse版本:MyEclipse6.5.1Hadoop版本:hadoop-1.2.11.安装MyEclipse后,创建一个java项目File->New->Java Project输入项目名称,确定2.导入hadoop所有包解压hadoop-1.2.1.tar(E:\software\share\hadoop-1.2.1)把E:\so原创 2013-12-13 23:44:06 · 5836 阅读 · 0 评论 -
HiveQL 常用操作
HiveQL 常用操作1. 创建表Create Tabledept (deptno Int,dname String) Row format delimited fields terminated By'\t';Create Table emp (empno Int,enameString,mgr Int,sal Float,deptno Int) Row format原创 2013-12-19 16:28:44 · 17189 阅读 · 0 评论 -
mapreduce实现推荐系统
1.开发环境:Windows2008 64bitJava 1.6.0_30MyEclipse 6.5环境部署见:http://blog.csdn.net/lichangzai/article/details/173105232.Hadoop集群环境:Oracle Linux Enterprise 5.9Java 1.6.0_18Hadoop:原创 2014-01-08 23:38:28 · 2921 阅读 · 1 评论 -
hadoop学习笔记-hive安装及操作
软件下载:Mysql: http://mysql.llarian.net/Downloads/MySQL-5.5/MySQL-5.5.24-1.rhel5.x86_64.tarHive:http://apache.dataguru.cn/hive/hive-0.8.1/hive-0.8.1.tar.gz 安装环境:OS:Oracle redhad 5.6 x86 64b原创 2013-01-21 13:47:22 · 16055 阅读 · 1 评论 -
CDH6.2环境中启用Kerberos
一、Kerberos概述:Kerberos是一个用于安全认证第三方协议,并不是Hadoop专用,你也可以将其用于其他系统,它采用了传统的共享密钥的方式,实现了在网络环境不一定保证安全的环境下,client和server之间的通信,适用于client/server模型,由MIT开发和实现。而使用Cloudera Manager可以较为轻松的实现界面化的Kerberos集成,Ker...原创 2019-06-27 11:40:48 · 9203 阅读 · 2 评论