- 博客(12)
- 资源 (10)
- 收藏
- 关注
转载 java开发中如何获取远程文件的大小
有时候在开发过程中需要得到一个远程文件的大小,一是通过编码可以快速获取到: [java] view plaincopyprint?public static void main(String[] args) { try { URL url = new URL("http://www.test.com/test.wm
2013-12-18 15:19:32 3045
原创 shell sort 排序 二次排序 去重
sort命令sort命令既可以从特定的文件,也可以从stdin中获取输入,并将输出写入stdout。uniq的工作模式和sort一样。以下两种方法都可以对一组文件进行排序。sort file1.txt file2.txt ... > sorted.txtsort file1.txt file2.txt ... -o sorted.txt找出已排序文件中不重复的行
2013-12-13 12:11:56 8667
原创 hive桶(bucket)简介
1. hive 桶相关概念 桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。 2. 桶作用
2013-12-13 10:58:52 8797
原创 hive分区(partition)简介
网上有篇关于hive的partition的使用讲解的比较好,转载了:一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数
2013-12-13 10:31:51 1224
转载 hive的内部表与外部表创建
1.创建表的语句:Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment
2013-12-10 12:36:44 1142
转载 hive中的时间处理函数
hive中的时间处理函数转自http://www.oratea.net/?p=944日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00
2013-12-06 19:02:30 1978
转载 通过 ulimit 改善系统性能
简介: 本文介绍了 ulimit 内键指令的主要功能以及用于改善系统性能的 ulimit 使用方法。通过这篇文章,读者不仅可以了解 ulimit 所起的作用,并且可以学会如何更好地通过 ulimit 限制资源的使用来改善系统性能。概述系统性能一直是一个受关注的话题,如何通过最简单的设置来实现最有效的性能调优,如何在有限资源的条件下保证程序
2013-12-06 17:44:15 988
转载 Hadoop工具生态系统指南
Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。 HadoopApache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。网址:hadoop.apache.org HDFS分布式文件系统提供高速的应用数据访问。网址:hadoop.apache.
2013-12-04 14:28:42 1389
转载 经典排序算法
1、经典排序算法 - 快速排序Quick sort原理,通过一趟扫描将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列举个例子如无序数组[6 2 4 1 5 9]a),先把第一项[6]取出来,用[6]依次与其余项进行比较,如果比[6]小就放
2013-12-02 23:01:15 1180
转载 RBTree
原文地址:http://blog.sina.com.cn/s/blog_60707c0f01011zz1.html0 定义 红黑树是一棵二叉查找树,树中的结点分为外结点和内结点,外结点本质就是一个NIL空指针叶结点,我们一般把外结点忽略画出来,内结点用来存储关键字。结点新增一个颜色域为红色或黑色,满足下列性质:①每个结点一定是红色或者黑色;②根结点一定是黑色的;③
2013-12-01 20:39:01 1135
转载 高效Linux用户需要了解的命令行技能
最近在Quora上看到一个问答题目,关于在高效率Linux用户节省时间Tips。将该题目的回答进行学习总结,加上自己的一些经验,记录如下,方便自己和大家参考。下面介绍的都是一些命令行工具,这些工具在几位回答者的日常工作中都很有用。对于任何不了解的命令,请使用“man “查看,或者使用Google。有些命令需要先用 yum, apt-get install 命令安
2013-12-20 15:29:41 941
转载 Hive的预定义UDF函数
原文地址:http://blog.csdn.net/ph123456789/article/details/6305392Hive的预定义UDF函数列表如下,主要来自于describe function xxx和代码注释的翻译:)abs(x) - returns the absolute value of xacos(x) - returns the arc cosine
2013-12-09 12:31:13 1012
HTTP协议详解 学习servlet的必备资料
2009-10-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人