- 博客(33)
- 资源 (46)
- 收藏
- 关注
原创 Linux卸载/删除多余网卡
卸载使用命令ifconfig命令查看网卡情况确认自己使用的是哪一块网卡,然后把其它的网卡都卸载掉。运行命令ifconfig 网卡名称 down。如: ifconfig eth1 down再次运行ifconfig就会发现被卸载掉的网卡没了。现在可以ping 一下内网的IP试试看能不能ping通。删除 一、删除VM中多余的ifcfg
2016-09-24 11:21:50 61904
转载 hive性能调优
原文:http://www.tuicool.com/articles/rMvQvm----------------------------------------------------------------------limit 限制调整-- 因为使用 limit 语句时候,是先执行整个查询语句,然后再返回部分结果的set hive.limit.optimi
2016-09-23 15:12:54 384
原创 Hive高级函数
Hive的函数太多了。简单查询select ... from...where...使用各种函数hive>show functions;//查看所有函数hive>describe function explode;//查看函数的使用方法LIMIT语句列别名嵌套select语句标准函数:reverse()upper()..
2016-09-23 15:09:19 1384
原创 Hive 导入CSV文件
Hive 使用如下FileFormat 类读写 HDFS files:TextInputFormat/HiveIgnoreKeyTextOutputFormat: 读写普通HDFS文本文件.SequenceFileInputFormat/SequenceFileOutputFormat: 读写SequenceFile格式的HDFS文件.Hive 使用如下SerDe 类(反)序列
2016-09-23 14:59:07 29079 1
转载 CSV文件的转义处理
原文:http://blog.csdn.net/maqingli20/article/details/7095132------------------------------------------------------------------------------------ CSV文件是一种适合程序格式化输出数据的文件格式。它使用英文逗号作为列分隔符,文件可以直接用Exc
2016-09-23 14:20:40 3572
转载 hive java导入CVS
原文:http://bbs.chinahadoop.cn/thread-5343-1-1.html----------------------------------------------------------------------------------本文的目的是hive读取cvs文件,忽略字段中‘\,’,最终还是以','来分割文本cvs格式是以逗号','隔开的文件格式,文本
2016-09-23 13:59:28 2868
原创 Hive文件格式
Hive有四种文件格式:TextFile,SequenceFile,RCFile,ORCTextFile默认的格式,文本格式。SequenceFile简介见:http://blog.csdn.net/zengmingen/article/details/52242768操作hive (zmgdb)>create table t2(str string)
2016-09-23 11:31:05 4757
原创 读模式与写模式
RDBMS是写模式Hive是读模式我们传统的关系型数据库RDBMS是写模式。在RDBMS里,我们对表进行数据操作时候,RDBMS会用数据库的第一第二第三范式去检查数据的规范性,如果不符合规范,数据库就拒绝数据的加载和操作。这个验证过程消耗资源,在数据量大的时候,会影响效率。因为日常的关系型数据库处理的数据不是很多,效率慢点没关系。大数据在对数据的加载的时候不进行校验,如果校验将
2016-09-22 20:19:30 2803
原创 导入导出数据
导入数据从文件中装载数据hive>LOAD DATA [LOCAL] INPATH '...' [OVERWRITE] INTO TABLE t2 [PARTITION (province='beijing')];LOCAL:linux本地的文件。无LOCAL:是hdfs的文件通过查询表装载数据hive>INSERT OVERWRITE TABLE t2 PARTI
2016-09-22 20:08:40 439
原创 hive索引
创建hive (zmgdb)> create index index_t1 on table v_t1(name) > as > 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' > with > deferred r
2016-09-22 17:22:32 634
原创 hive视图
数据数据文件v_t1[root@hello110 data]# vi v_t1lisi 22 100000ximing 22 100022xiaoji 23 100033xiaohua 24 100044xx 22 100055数据文件v_t2[root@hello110 data]#
2016-09-22 16:31:29 2251
原创 Hive的数据模型—桶表
概述桶表是对数据进行哈希取值,然后放到不同文件中存储。数据加载到桶表时,会对字段取hash值,然后与桶的数量取模。把数据放到对应的文件中。物理上,每个桶就是表(或分区)目录里的一个文件,一个作业产生的桶(输出文件)和reduce任务个数相同。作用桶表专门用于抽样查询,是很专业性的,不是日常用来存储数据的表,需要抽样查询时,才创建和使用桶表。实验创
2016-09-22 12:14:44 4232 1
转载 mapreduce yarn内存参数
1、yarn-site.xml 设置1.1 RM设置RM的内存资源配置,主要是通过下面的两个参数进行的(这两个值是Yarn平台特性,应在yarn-sit.xml中配置好): yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocation-mb说明:单个容器可申请的最小与最大内存,应用在运行申请内存时不
2016-09-21 22:21:02 475
原创 动态分区装载数据
不开启一个个分区导入,分区需要做到一对一。hive (zmgdb)> insert overwrite table p_t3 partition (city='ningbo') > select name,post,address from p_t1 where city='ningbo';会启动mapreduce进行导入,mr卡在kill j
2016-09-21 17:14:53 686
转载 Hadoop运行任务时一直卡在: INFO mapreduce.Job: Running job
原文链接:http://blog.csdn.net/dai451954706/article/details/50464036----------------------------------------------------------------------------------------------------- 今天,一大清早同事就让我帮他解决Hive的问题:他在H
2016-09-21 16:56:30 2188
转载 Yarn简单介绍及内存配置
在这篇博客中,主要介绍了Yarn对MRv1的改进,以及Yarn简单的内存配置和Yarn的资源抽象container。我么知道MRv1存在的主要问题是:在运行时,JobTracker既负责资源管理又负责任务调度,这导致了它的扩展性、资源利用率低等问题。之所以存在这样的问题,是与其最初的设计有关,如下图:从上图可以看到,MRv1是围绕着MapReduce进行,并没有过多地考虑以后出
2016-09-21 16:55:47 672
原创 Hive的数据模型-分区表
需求select * from t1 where xxxx;这是全表扫描的。实际应用中,有时候不一定需要全表扫描。比如电信的日志文件,一个表里存了从去年到现在的日志文件,那是很多很大的,实际需求要查今天的,如果用上面的sql,要全部扫描,很耗时间和机器资源,怎么办?可以把文件分区存放,比如按天划分,查询时,指定分区。于是,分区表出来了。概述分区可以理解为分类,
2016-09-21 16:12:13 617
原创 Hive的数据模型-外部表
概述包含External 的表叫外部表删除外部表只删除metastore的元数据,不删除hdfs中的表数据外部表 只有一个过程,加载数据和创建表同时完成,并不会移动到数据仓库目录中,只是与外部数据建立一个链接。当删除一个 外部表 时,仅删除该链接指向已经在 HDFS 中存在的数据,可以创建 Partition它和 内部表 在元数据的组织上是相同的,而实际数据的存储则有较大的差异
2016-09-21 12:38:03 587
原创 Hive的数据模型-管理表
概述管理表,也称作内部表,受控表。所有的 Table 数据(不包括 External Table)都保存在warehouse这个目录中。删除表时,元数据与数据都会被删除。在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。操作创建数据文件inner_table.dat
2016-09-21 11:04:45 790
原创 hive列定义
修改列的名称、类型、位置、注释hive>ALTER TABLE t3 CHANGE COLUMN old_name new_name String [COMMENT '...'] [AFTER column2];实例hive (zmgdb)> alter table t1 change column car sarly int after office;FAILED:
2016-09-19 17:17:00 1582
原创 hive表定义(3种方式)
创建表hive>CREATE TABLE IF NOT EXISTS t1(...) [COMMENT '....'] [LOCATION '...'] 显示所有表hive>SHOW TABLES in mydb;hive>CREATE TABLE t2 LIKE t1;实际开中,担心影响原来的表,可以用like命令,复制个表,然后再对复制表操作。
2016-09-19 16:46:22 1738
原创 hive数据库定义
默认数据库"default"可以显式切换数据库:hive> use 数据库名;创建hive>CREATE DATABASE [IF NOT EXISTS] mydb [LOCATION] '/.......' [COMMENT] '....';实例hive (default)> create database test_db comme
2016-09-19 16:01:50 1174
转载 ORA-28001: the password has expired解决方法
Oracle提示错误消息ORA-28001: the password has expired,是由于Oracle11G的新特性所致, Oracle11G创建用户时缺省密码过期限制是180天(即6个月), 如果超过180天用户密码未做修改则该用户无法登录。 Oracle公司是为了数据库的安全性默认在11G中引入了这个默认功能,但是这个默认的功能很容易被DBA或者是开发人员给疏忽,一旦密码180天未
2016-09-12 10:24:43 524
转载 Oracle Minus关键字 不包含 取差集
Oracle Minus关键字 SQL中的MINUS关键字 SQL中有一个MINUS关键字,它运用在两个SQL语句上,它先找出第一条SQL语句所产生的结果,然后看这些结果有没有在第二个SQL语句的结果 中。如果有的话,那这一笔记录就被去除,而不会在最后的结果中出现。如果第二个SQL语句所产生的结果并没有存在于第一个SQL语句所产生的结果内,那这 笔资料就被抛弃,其语法如下: [S
2016-09-08 17:28:09 1583
转载 oracle下lag和lead分析函数
Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率。语法:[sql] view plain copy/*语法*/ lag(exp_str,offset,defval) over() Lead(exp_
2016-09-08 16:36:39 413
原创 hive复合数据类型之map
概述MAP:MAP包含key->value键值对,可以通过key来访问元素。比如”userlist”是一个map类型,其中username是key,password是value;那么我们可以通过userlist['username']来得到这个用户对应的password;操作实例1、创建表hive> create table map_test(id stri
2016-09-02 19:01:46 18451
原创 hive复合数据类型之array
概述ARRAY:ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits,它是由['apple','orange','mango']组成,那么我们可以通过fruits[1]来访问元素orange,因为ARRAY类型的下标是从0开始的;操作实例1、创建表hive> create table
2016-09-02 18:40:23 15378
原创 hive复合数据类型之struct
概述STRUCT:STRUCT可以包含不同数据类型的元素。这些元素可以通过”点语法”的方式来得到所需要的元素,比如user是一个STRUCT类型,那么可以通过user.address得到这个用户的地址。操作实例
2016-09-02 18:20:15 7760
原创 Hive数据类型
概述Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型。基础数据类型数据类型所占字节开始支持版本TINYINT1byte,-128 ~ 127 SMALLINT2byte,-32,768 ~ 32,767 INT4by
2016-09-02 11:19:48 330
原创 hive参数配置使用
概述set命令设置hive的参数。${} 可以获取配置项的值,作为参数使用。在启动hive时可以传入配置项启动。hive参数初始化配置set命令~/.hiverchive参数介绍输入set,可以查看所有可设置项和现在设置项的值。hive> set;项太多了,不一一罗列。system:sun.os.patch.level=unknownsystem
2016-09-02 11:14:45 1921
原创 Hive的使用之hwi
概述hwi是hive开发的网页形式查看数据。方便非专业人士使用。安装步骤1、下载hive源码包地址:http://apache.fayea.com/hive/apache-hive-2.1.0-src.tar.gz2、打包war解压apache-hive-2.1.0-src.tar.gz源码包,进入到C:\Users\zengmg\Deskt
2016-09-01 14:59:36 2260
原创 hive与依赖环境的交互
与linux交互命令格式在linux的命令前加上!(英文感叹号),以;(英文分号结尾)操作实例!ls;!pwd;hive> !ls;appderby.loghadoop-2.7.2.tar.gzjdk-8u73-linux-x64.tar.gzmetastore_dbt.sqlhive> !pwd;/home/hadoop
2016-09-01 11:57:10 1061
原创 Hive的使用之脚本文件
好处在实际开发中,遇到复杂的hivesql,在文件里先写好再执行,比直接在控制台写更高效,纠错,修改更方便,也易于后期维护。[hadoop@hello110 ~]$ 模式$>hive -e "sql语句"$>hive -e "sql语句">aaa 把sql执行结果覆盖到aaa文件里$>hive -e "sql语句">>aaa 把sql执行结果追加
2016-09-01 11:42:35 3070
hadoop-eclipse-plugin-1.2.1.jar
2016-04-12
软件项目WBS完整分解
2022-12-17
nginx配置文件
2018-06-06
jave-1.0.2.rar
2017-10-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人