
hadoop
五道口纳什
wx公众号/B站:五道口纳什
展开
-
SQOOP——MySQL 和 HDFS 的桥梁
将数据从 mysql import 到 HDFS 中我们要使用 mysql 的话,意味着要对其进行连接,自然使用 JDBC(Java Data Base Connectivity)。在之前配置 hive 的 mysql 时,我们已将 mysql-connector-java-5.1.10.jar 拷贝到 hive/lib 目录下,[root@hadoop0 ~]# cp $HIVE_HOME/lib原创 2016-03-12 16:36:27 · 1427 阅读 · 0 评论 -
SQOOP 基础及安装
SQOOP 是hadoop生态圈中使用较为简单的一款产品; (1)SQOOP 命令是转换为 map 任务执行的,再次可见hadoop(hdfs、MapReduce)居于hadoop生态圈的核心位置(2)关系型数据库向hadoop的转换应当是双向的;SQOOP 用于对数据进行导入导出的,(1)把 MySQL、Oracle 等数据库中的数据导入到 HDFS、Hive、HBase中(2)把H原创 2016-03-12 10:59:34 · 1158 阅读 · 0 评论 -
SQOOP --hive-import 错误(Sqoop Hive exited with status 1)及解决
SQOOP 基础及安装 执行 SQOOP 的 import 到 HDFS 操作时,--hive-import参数的目的是为了将mysql/oracle等关系型数据库中的文件导入到HDFS文件系统时,顺便也导入到 hive 中去。然而,有时我们增加该参数时,可能会报如下的错误:13/04/21 16:42:50 ERROR tool.ImportTool: Encountered IOExceptio原创 2016-03-12 12:56:53 · 7215 阅读 · 7 评论 -
Hive 基础及安装
Hive 基础(1)在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。a) 所谓 hadoop 中的数据,是指存储在 hdfs 文件系统上的数据,MapReduce用于数据处理b) hive 的最大优势便在于其对数据管理和数据查询功能的支持;(2)本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中原创 2016-03-10 14:53:04 · 1307 阅读 · 0 评论 -
使用 JDBC 连接 Hive(ClassNotFoundException、No suitable driver found、Could not open client transport wit)
主要解决 因为hive版本的问题,JAVA 使用 JDBC 连接 hive 时抛出的一些异常原创 2016-03-12 10:18:29 · 15877 阅读 · 1 评论 -
hadoop 命令行相关操作
(1)格式化:hadoop namenode -format(2)启动:start-all.sh(3)关闭:stop-all.sh浏览器端(1)hadoop0:50070如果hadoop0为主节点的话;原创 2016-03-05 18:46:16 · 1077 阅读 · 0 评论 -
hive 配置 mysql时的问题(Relative path in absolute URI: ${system:java.io.tmpdir%7D/$%7Bsystem:user.name%7D)
因为 hive 的映射工具——metastore,默认存放在 derby 中,而derby数据库的一大缺陷在于其不支持并发访问(早期的hive是这样)。当我们使用 mysql 作为其远程仓库时,自然需要修改相关配置文件。(其实所谓的默认配置,即是配置文件赋予该属性的初始值)。主要修改的配置文件在$HIVE_HOME/conf/下的hive-site.xml文件(该文件由mv hive-default原创 2016-03-11 18:23:49 · 4172 阅读 · 0 评论 -
hadoop 生态圈
端口号hadoop 家族产品的下载地址原创 2016-03-06 21:25:13 · 1035 阅读 · 0 评论 -
Pig 基础及安装
基础Pig 是基于hadoop的一个数据处理框架(MapReduce也是一个基于hadoop的数据处理框架)。MapReduce 是使用Java进行开发的,Pig有一套自己的数据处理语言,Pig 的数据处理过程要转化为MapReduce来运行(也即Pig是对MapReduce的进一步封装)。Pig 的数据处理语言是数据流方式的,(MapReduce:Java代码段,还有基于SQL的,也即要么错原创 2016-03-09 20:50:47 · 1208 阅读 · 0 评论 -
使用 Pig 进行数据分析
本文,我们将以一个具体案例说明,如何通过Pig——这一便捷的框架,进行数据的处理与分析工作。(1) 上传待分析文件到 hdfs:比如我们要处理的用户上网日志信息,下载地址,上网日志数据(hadoop用);[root@hadoop0 ~]# hadoop fs -put /HTTP_20130313143750.dat /wlan该上网日志信息的字段,类型及含义如下:0、reportTime、lon原创 2016-03-10 11:43:22 · 2042 阅读 · 0 评论 -
SQOOP 操作
自动运行脚本修改 $SQOOP_HOME/conf 下的配置文件,sqoop-site.xml,加注的sqoop.metastore.client.record.password属性(其 value 为 true,也即对密码进行记录),只不过默认对该配置加注,我们将它解注释。原创 2016-03-12 16:46:01 · 1199 阅读 · 0 评论 -
hadoop 实战——网站日志数据分析
用于分析的关键指标(1)浏览量 PV定义:页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录一次。分析:网站总浏览量,可以考核用户对于网站的兴趣,就像收视率对于电视剧一样。但对于网站运营者来说,更重要的是,每个栏目下的浏览量。(2)注册用户数定义:每天有多少用户注册计算公式:对访问member.php?mod=register(注册页面)原创 2016-03-12 18:18:35 · 2346 阅读 · 0 评论 -
SecondaryNameNode 的作用
尽量不要将 secondarynamede 和 namenode 放在同一台机器上。NameNodeNameNode 主要是用来保存 HDFS 的元数据(metadata,描述数据的数据)信息,比如命名空间信息,块信息等。当它运行的时候,这些信息是存在内存中的。但是这些信息也可以持久化到磁盘上。原创 2016-09-25 14:55:17 · 1230 阅读 · 0 评论 -
Exception in thread “main” java.lang.NoClassDefFoundError: com/google/common/base/Preconditions
问题原因,缺少 hadoop 提供的相关 jar 包,也即 guava-版本号.jar。 此 jar 包的位置,在 hadoop 目录下的/share/hadoop/tools/lib.参考: 1. Exception in thread “main” java.lang.NoClassDefFoundError: com/google/common/base/Preconditions原创 2016-06-01 08:53:56 · 27275 阅读 · 0 评论 -
Storm 初步
Apache Storm is a free and open source distributed realtime computation system. Storm makes it easy to reliably process unbounded streams of data, doing for realtime processing what Hadoop did for bat原创 2016-04-23 20:32:15 · 1081 阅读 · 0 评论 -
WordCount——MapReduce 实例入门
本文我们从一个简单的实例出发,统计文本中不同单词出现的次数,来讲述 MapReduce 的执行流程。考虑如下的文本信息(文件名为hello):hello youhello meMapReduce 工作流程(1) [K1, V1]:将输入文本的每一行,解析成一个 key、value 对键:当前文本行的首地址,则第一行的首地址为0,则第二行的首地址为10(第一行的换行也站一个字节)。值:当前文本行文原创 2016-03-15 10:04:00 · 1470 阅读 · 0 评论 -
MapReduce 原理及执行过程
(1)MapReduce 是一种分布式计算框架,由 Google 提出,主要用于搜索领域,以解决海量数据的计算问题。(分布式存储和分布式计算发轫于 Google 这样的公司是不足为奇的)(2)MapReduce 由两个阶段组成:Map (开始)和 Reduce(结束),用户只需实现 map() 和 reduce() 两个函数,即可实现分布式计算,十分便捷(3)这两个函数的形参是 key、valu原创 2016-03-15 08:38:25 · 4606 阅读 · 0 评论 -
hadoop 主要配置文件
(1)/conf/slaves:从节点主机名(2)/conf/masters:secondarynamenode 所在的主机的主机名原创 2016-03-05 18:51:40 · 1669 阅读 · 0 评论 -
如何将 hadoop1.1.2/1.2.1 源码关联到 Eclipse
最为关键的一点,jre 的版本不宜过高,有一点明确的是,jre6 是可用的,jre8 是出编译错误的。step 1:新建工程,设置 jre 的版本 并下调编译级别: step 2:拷贝 hadoop 源码到srchadoop 的源码我们主要关心的是hadoop 的 src 目录下的 core、hdfs、mapred 三个文件夹下的内容:我们将其拷贝到 hadoop-1.1.2 工程的原创 2016-03-14 12:30:43 · 1571 阅读 · 0 评论 -
Hadoop HDFS 的 Java API 操作方式
想要使用Java API 的方式操作 Hadoop,尤其是hdfs(hadoop file system),必然需要引入jar包(jar包提供了丰富的API)。点中工程名,alt+enter,进入工程属性页,点击【Java Build Path】,点击【Libraries】,我们要引入外部的Jar包,点击【Add External JARs …】。导入的外部Jar包分为两部分(避免出现依赖原创 2016-03-09 15:21:39 · 1099 阅读 · 0 评论 -
HBase 完全分布式的安装
HBase 的(伪)分布式安装 在伪分布安装中,我们将hbase-env.sh的最后一行解注释export HBASE_MANAGES_ZK=true,配置文件关于这一条语句的解释是Tell HBase whether it should manage it's own instance of Zookeeper or not.,也即HBase是否拥有自己的ZooKeeper实例。如果允许的话,一般原创 2016-03-09 20:08:34 · 1500 阅读 · 0 评论 -
HBase 分布式的搭建(二)
HBase 的(伪)分布式安装原创 2016-03-09 18:42:29 · 1322 阅读 · 0 评论 -
hive 操作(四)
distinct:去重视图 使用视图可以屏蔽复杂的操作; 还可进行权限的控制;hive> create view v1 as select * from t1;limit clauseLimit 限制查询的记录数,返回的结果是随机选择的,hive> select * from t1 limit 5;sort by & order bysort by多个 reduce,内部排序ord原创 2016-03-11 23:09:31 · 1167 阅读 · 0 评论 -
hive 操作(三)——hive 的数据模型
Hive 操作(一) hive 操作(二)——使用 mysql 作为 hive 的metastore 大的分类可分为:(1)受控表(MANAGED_TABLE)内部表分区表桶表(2)外部表(external table)和受控表不同,对外部表删除,仅删除引用,而不删除真实存储的数据;内部表(1)表定义表定义,自然包含字段定义,也即列定义;hive> create table t1(id原创 2016-03-11 20:59:50 · 3805 阅读 · 0 评论 -
hive 操作(二)——使用 mysql 作为 hive 的metastore
Hive 操作(一) hive 默认使用 derby 作为映射表(SQL 操作映射为MapReduce Job,将SQL中创建的表映射为 hdfs 的文件/文件夹,字段映射为其中的行),但 derby 的一大缺陷在于它不允许多个客户端同时执行sql操作(可能新版本的hive会有所升级)。我们又知hive的metastore,除了derby,还可存放于 mysql 中;CentOS mysql 的安装原创 2016-03-11 16:10:41 · 3435 阅读 · 0 评论 -
Hive 操作(一)
Hive 基础及安装 注:(1)hive的映射工具metastore:SQL ⇒ MapReduce Job表(SQL) ⇒ 文件/文件夹(hdfs)字段 ⇒ 文件中的列Hive 的 SQL 操作(1)进入hive[root@hadoop0 ~]# hive(2)基本的类 MySQL 的操作:hive> show databases;OKdefaultTime taken: 2.4原创 2016-03-11 10:55:54 · 1558 阅读 · 0 评论 -
hadoop 操作(二)
hadoop 相关操作 在 Linux Shell 中操作 hadoop 文件系统(hdfs)(1) 查看(查看根目录 /)[root@hadoop0 ~]# hadoop fs -ls /原创 2016-03-09 15:26:58 · 1093 阅读 · 0 评论 -
Hadoop 基本数据类型
TextLongWritableNullWritable原创 2016-03-15 10:48:44 · 3019 阅读 · 0 评论 -
CentOS hadoop 伪分布式安装步骤
环境的准备设置ip地址采用host only网络连接方式,桌面右键网络连接,选择edit connections,设置静态ip(vmnet1保持一致) 执行命令 service network restart(重启网络服务,使ip生效) 验证: ifconfig关闭防火墙执行命令 service iptables stop 验证: service iptables st原创 2016-03-03 21:16:38 · 1629 阅读 · 0 评论 -
hadoop完全分布式集群搭建
简洁不意味着简单,同样琐碎也不意味着复杂。比如hadoop完全分布式集群的搭建,并不复杂,只是琐碎。概念介绍 新近所学皆数学,对基本概念(放在一些特定技术的语言环境里就是术语)、基本原理比较敏感。深以为然一点,在大的原理或者框架之下,所有那些记忆起来特别啰嗦的知识点,都是其中的推论或者特例。熟悉基本概念、基本原理,便打开了永久的记忆之门。 三种安装模式本地模式 又名非分布式,也是h原创 2015-10-09 13:13:01 · 2120 阅读 · 0 评论 -
在现有集群环境下动态增加(下架)新的节点
一 配置新节点的环境二 把新节点的主机名hostname加入到主节点的slaves中三 在新节点中启动datanode和tasktracker四 在主节点中刷新集群拓扑结构五查看与验证浏览器端查看六 关于下架 有此需求,便有此设计与实现。我们对如下情形的网络拓扑结构进行新节点的配置 主机名 属性 hadoop0 namenode, jobtracker hadoo原创 2015-10-15 11:47:00 · 1386 阅读 · 0 评论 -
深入理解 MapReduce
(1)在 Map 阶段的分区阶段,分区的数目(单独一个 Mapper 任务的分支数),同时也决定了 Reducer 的数目;这一点在 Java 代码操作时显得尤为明显:job.setPartitionerClass(HashPartitioner.class);job.setNumReduceTasks(1);(2)基本数据指标的观察在 Eclipse 的控制台观察如下的一些信息:Map inp原创 2016-03-15 12:06:08 · 1106 阅读 · 0 评论 -
hive 操作(五)——常用内置函数
(1)查看全部的函数信息hive> # 键入tab(2)函数的帮助信息hive> decribe function substr;(3)count:统计计数(4)instr(str, substr):返回子串在字符串的下标(以下标1开始计数),若返回为0表示未有该子串原创 2016-03-17 10:42:23 · 5202 阅读 · 0 评论 -
深入理解 Hive
1. 分区表原创 2016-03-17 09:16:55 · 1536 阅读 · 0 评论 -
使用 Java API 操作 HBase
在hbase 操作 一文我们介绍了使用命令行(HBase shell)的方式操作hbase,如果 Java 也可操作MySQL一样,本文我们着重介绍如何使用 Java API 操作 HBase。原创 2016-03-07 21:11:39 · 1151 阅读 · 0 评论 -
HBase 的(伪)分布式安装
HBase 伪分布式安装原创 2016-03-07 16:32:59 · 1216 阅读 · 0 评论 -
ZooKeeper 集群搭建
一准备1 zookeeper是什么2 为什么使用zookeeper二 安装 zookeeper对hadoop而言并不是重点,但却是实现HBase的一个重要协调工具。一、准备安装用的ZooKeeper可在这个镜像站点下载。我安装使用的zookeeper版本是zookeeper-3.4.6.tar.gz。1.1 zookeeper是什么zookeeper提供了一种针对hadoop的分布式协调原创 2015-10-17 10:00:20 · 1354 阅读 · 0 评论 -
Hadoop 集群搭建补充
$HADOOP_HOME is deprecated.我们解压 Hadoop 压缩文件,并设置环境变量时,在/etc/profile文件中,如果我们使用的是export HADOOP_HOME=/usr/local/hadoop,然后再添加进PATH路径下。(伪)分布式系统搭建完毕后,使用start-all.sh启动集群时,会在启动的过程中,显示$HADOOP_HOME is deprecated.原创 2016-03-07 22:29:43 · 1034 阅读 · 0 评论 -
HBase 基础
HBase 是 NoSQL(非关系型数据库)系列的一种。HBase 基础知识HBase:Hadoop database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase 利用 Hadoop HDFS 作为其文件存储系统;利用 Hadoop MapReduce 来处理 HBase 中的海量数据;原创 2016-03-06 18:37:22 · 1203 阅读 · 0 评论 -
CentOS hadoop 分布式集群的搭建
假定集群中的全部节点,彼此之间已实现免密码登录(共An−1nA_n^{n-1}对关系),节点都配置好hadoop(每个节点上的伪分布式已搭建完毕,伪分布式的搭建参见 CentOS hadoop 伪分布式安装步骤 )和jdk,以及环境变量的设置。环境设置完毕之后,此时我们开始集群的搭建与部署。(1)主从节点的确定,也即分布式集群结构的确定(2)修改主节点中 hadoop 的配置文件,也即/conf原创 2016-03-05 18:18:13 · 1299 阅读 · 0 评论