- 博客(17)
- 资源 (57)
- 收藏
- 关注
原创 tez安装、配置
hive on tez 的方式有两种安装配置方式: ● 在hadoop中配置 ● 在hive中配置比较: 当已经有了稳定的hadoop集群,而不想动这个集群时,可以考虑采用第二种方式配置,第二种方式配置后只有hive的程序可以动态的切换执行引擎:set hive.execution.engine=mr;// tez/mr ;而其他的mapreduce程序只能在yarn上运行;
2017-04-25 10:23:54 5280 1
原创 python多线程
python提供了两个模块来实现多线程thread 和threading ,thread 有一些缺点,在threading 得到了弥补。先看一个例子:#coding=utf-8import threadingfrom time import ctime,sleepdef music(func): for i in range(2): print "I wa
2017-04-22 18:20:47 571
原创 git checkout到历史某个版本
1、git log2、git checkout:git checkout 788258e49531eb24bfd347a600d69a16f966c495
2017-04-21 11:55:36 98372 1
原创 html5+servlet文件上传
1、index.jspHello World! <input id="fileid" type="file" accept="text/plain" onchange="onfile(this)">var xhr;function onfile(file) { if (!/\.(txt)$/.test(file.value)) {
2017-04-19 12:27:22 1603
转载 SQuirrel连接hive配置
熟悉了Sqlserver的sqlserver management studio、Oracle的PL/SQL可视化数据库查询分析工具,在刚开始使用hive、phoenix等类sql组件时,一直在苦苦搜寻是否也有类似的工具,不负所望,SQuirrel Sql client 可视化数据库工具基本可满足要求。 SQuirrel Sql client是一个用Java写的数据库客户端,用JDBC统一数据库访
2017-04-18 12:13:06 2261
转载 hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有一点
2017-04-18 10:13:23 521
转载 hive 分区表
hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。下面的语句创建了一个简单的分区表:create table partition_test(member_id string,name string)partitioned by
2017-04-17 18:46:30 762
原创 hive集群部署
Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个MapReduce程序组成可执行计划,并按照该计划生成对应的MapReduce任务提交给Hadoop集群处理,获取最终的结果。元数据——如表模式——
2017-04-14 17:53:53 3203
原创 udf开发——解hive外表中的pb二进制数据
目标:hbase中有一张表,为了提高存储效率使用pb的二进制方式存储;现在hive上建了一个外表,需要写一个udf解pb的二进制数据。 一、hbase中存储的数据先用pb生成二进制,转成string后再使用base64编码:1、在hive中创建外表,结构如下:create external table ext_toutiao_feed_incr (f_id string,tagP...
2017-04-12 09:40:51 3628 2
原创 hive数据类型
Hive的内置数据类型可以分为两大类:基础数据类型; 复杂数据类型;1、基础数据类型包括: 数据类型 所占字节 开始支持版本 TINYINT 1byte,-128 ~ 127 SMALLINT 2byte,-32,768 ~ 3...
2017-04-09 14:23:06 942
转载 Hive中数据的加载和导出
关于 Hive DML 语法,你可以参考 apache 官方文档的说明:Hive Data Manipulation Language。apache的hive版本现在应该是 0.13.0,而我使用的 hadoop 版本是 CDH5.0.1,其对应的 hive 版本是 0.12.0。故只能参考apache官方文档来看 cdh5.0.1 实现了哪些特性。因为 hive 版本会持续升级,
2017-04-09 13:17:35 788
原创 hive与hbase关联表
hive创建 关联hbase表有2种形式:一、建立hive内表,指向hbase:(数据是存在hbase中的)通过下面的方式创建hive的内表,这种情况是hbase本来没有这张表,创建后会在hbase中同样创建一张表,将来数据也是存放在hbase中的;hdfs的hive表目录有hive文件夹,但是里面没有数据。create tablehive_hbase_test(id string,n
2017-04-09 13:01:43 12331 4
原创 Hive中不走MapReduce的查询
在Hive中查询语句往往都要被解析成MapReduce的job进行计算,但是有两个查询语句是不走MapReduce的,如下:1.查询某张表的所有数据[java] view plain copyselect * from employees; 结果显示如下:[java] view plain copy
2017-04-08 14:24:33 7582
转载 hive-列转行和行转列
1. 假设我们在Hive中有两张表,其中一张表是存用户基本信息,另一张表是存用户的地址信息等,表数据假设如下:user_basic_info:idname1a2b3c4duser_address;nameaddressaadd1aa
2017-04-08 12:59:02 1049
原创 shell命令之——getopts
1、getopts 简介 由于shell命令行的灵活性,自己编写代码判断时,复杂度会比较高。使用内部命令 getopts 可以很方便地处理命令行参数。一般格式为:getopts options variable getopts 的设计目标是在循环中运行,每次执行循环,getopts 就检查下一个命令行参数,并判断它是否合法。即检查参数是否以 - 开头,后面跟一个包含在 opti
2017-04-07 11:35:06 651
原创 Log4j info和error输出到不同文件
1、log4j提供了为不同的 Appender 设置日志输出级别的功能,方法是配置Appender的Threshold(log4j.appender.D.Threshold = DEBUG)。例如:### set log levels ###log4j.rootLogger = debug ,stdout,D,E### 输出到控制台 ###log4j.appender.stdout =
2017-04-05 19:08:25 24475 3
转载 grep命令,或关系
方法一:(推荐方法)\| 符号法[root@mail ~]# grep 'usrquota\|grpquota' /etc/fstab方法二:使用扩展 -Enetstat -an | grep -E "ESTABLISHED|WAIT"此处的 -E 是大写 ,匹配条件一定要加 引号方法三:使用多个 -e 参数netstat -an | g
2017-04-05 18:58:56 7147
macOS eclipse Launcher
2023-12-18
parquet-tools-1.6.0rc3.zip
2020-07-24
jQuery-Plugin-For-Easily-Readable-JSON-Data-Viewer.zip
2019-12-31
yesmeck-jquery-jsonview-v1.2.3-14-g01b1eb8.zip
2019-12-30
linux解析json工具——jq
2017-09-16
jquery 全屏显示插件
2015-03-20
apache-maven-3.2.3-bin
2014-10-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人