2013年12月_码上富贵

12月 11月

转载 Hive的JOIN用法

Hive表连接的语法支持如下：Sql代码 join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | ta

2013-12-17 17:23:54 739

转载 hive 子查询特别分析

http://blog.csdn.net/ls3648098/article/details/9630357Hive只支持在FROM子句中使用子查询，子查询必须有名字，并且列必须唯一：SELECT ... FROM(subquery) name ...确认下是否一定要求列必须唯一？建表语句：create table tb_in_ba

2013-12-17 15:19:05 1523

转载 Linux磁盘空间不足

Linux磁盘空间不足报警，是/var/account/pacct这个文件导致的var挂载点空间不足。这个文件的意思：Linux下有一个记载进程记录的进程psacct，当一个进程终止时，把每个进程向统计文件（pacct或acct）中写一个纪录。进程统计的目的是为系统中的基本服务提供命令使用统计。该文件可以通过数据的工具(sa，ac)进行分析。解决方法：（

2013-12-13 14:22:16 1996

原创整理和总结hive sql

注意：hive命令每句话结束必须加分号，才能退出，类似于mysql的shell。--------------------------------------------------------------------------进入hive shell#hive或者hive --service cliHive 的启动方式:hive 命令行模式，直接输入/hive/bin/hi

2013-12-12 18:00:22 2679

转载 hive转义字符

CREATE TABLE escape (id STRING, name STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '"'; LOAD DATA LOCAL INPATH '/home/tianzhao/book/escape.txt' OVERWRITE INTO TABLE escape; escape.

2013-12-12 16:32:24 4461

转载常用HQL语句

Hive 的启动方式：1、hive 命令行模式，直接输入/hive/bin/hive的执行程序，或者输入 hive - -service cli2、hive web界面的启动方式，hive - -service hwi3、hive 远程服务 (端口号10000) 启动方式，nohup hive - -service hiveserver & 创建表ci

2013-12-12 16:17:45 1399

转载 hive分区（partition）简介

一、背景1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。二、技术细节

2013-12-12 13:43:41 4285

原创 Hive CSV Support(csv-serde)

csv-serde下载地址：http://ogrodnek.github.io/csv-serde/用法：add jar path/to/csv-serde.jar;create table my_table(a string, b string, ...) row format serde 'com.bizo.hive.serde.csv.CSVSerde' stored a

2013-12-11 17:45:18 1529

转载 Mapreduce中value集合的二次排序

Hadoop的MapReduce模型支持基于key的排序，即在一次MapReduce之后，结果都是按照key的大小排序的。但是在很多应用情况下，我们需要对映射在一个key下的value集合进行排序，即“secondary sort”。在《hadoop the definate guide》的P227的“secondary sort”章节中，以为例，在map阶段按照year来分发t

2013-12-10 19:01:39 2630

转载 mapreduce编程（二）－大象书中求每一年的最高温度

转自：http://blog.csdn.net/heyutao007/article/details/5890165书上的例子是为了取出一年当中气温最高的值，那么将年份和气温做了一个复合的key. 1 通过设置了partitioner来进行分区。因为分区是按照年份来进行，所以同年的数据就可以分区到一个reducer中。2 自定义key比较器，按照年份升序，温度值

2013-12-09 10:34:12 1029

转载 mapreduce编程（一）－二次排序

转自：http://blog.csdn.net/heyutao007/article/details/5890103mr自带的例子中的源码SecondarySort，我重新写了一下，基本没变。这个例子中定义的map和reduce如下，关键是它对输入输出类型的定义：（java泛型编程） public static class Map extends Mapper

2013-12-09 10:33:07 736

转载 MapReduce初级案例(转自虾皮博客)

1、数据去重　　 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述　　对数据文件中的数据进行去重。数据文件中的每行都是一个数据。　　样例输入如下所示： 1）file1：

2013-12-06 09:40:39 1121

转载 hadoop解决中文输出乱码

hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式，但是对于中文的输出window系统默认的是GBK，有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时，输出的结果为乱码，只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。默认的情况下MR主程序中，设定输出编码的设置语句为：

2013-12-05 14:25:18 9508

转载 Hadoop Map/Reduce教程

Hadoop Map/Reduce教程目的先决条件概述输入与输出例子：WordCount v1.0源代码用法解释Map/Reduce - 用户界面核心功能描述MapperReducerPartitionerReporterOutputCollector作业配置任务的执行和环境作业的提交与监控作业的控制作业的输入InputSpl

2013-12-05 09:29:11 923

转载 LINUX分区

hd表示硬盘 a表示第一块盘 1表示第一分区hda1表示第一块盘的第一分区--------------------------------------cd /mntmkdir wincmkdir windmkdir winemount /dev/hda1 /mnt/wincmount /dev/hda5 /mnt/wi

2013-12-04 13:27:43 614

ImageAlpha1.5.1.tar.bz2

图片格式转换，图片压缩。

2021-11-28

Hosts.prefpane-1.4.5.tar.gz

macos Edit hosts file

2021-11-28

Git macOS - GitUp.zip

一个简单但功能强大的 Git macOS 应用程序。Mac OS X 10.8 or later—OS X。

2021-11-28

gitbar-1.0.tar.gz

BitBar插件，可快速显示您的开源 GitHub 贡献统计数据并帮助设置贡献目标，所有这些都在您的 Mac OS X 菜单栏上。

2021-11-28

UnionFind.pdf

UnionFind

2021-11-28

UnionFind-2x2.pdf

UnionFind-2x2

2021-11-28

LinearProgrammingIII.pdf

算法设计

2021-11-28

LinearProgrammingII.pdf

算法设计

2021-11-28

LinearProgrammingII-2x2.pdf

算法设计

2021-11-28

LinearProgrammingIII-2x2.pdf

算法设计

2021-11-28

IntractabilityIII.pdf

算法设计

2021-11-28

LinearProgrammingI.pdf

算法设计

2021-11-28

LinearProgrammingI-2x2.pdf

算法设计

2021-11-28

FibonacciHeaps.pdf

算法设计

2021-11-28

FibonacciHeaps-2x2.pdf

算法设计

2021-11-28

DemoHeapify.pdf

算法设计

2021-11-28

DemoGreedyVertexCover.pdf

算法设计

2021-11-28

DemoGreedyIndependentSetTrees.pdf

算法设计

2021-11-28

DemoDynamicTable.pdf

算法设计

2021-11-28

DemoBinaryHeap.pdf

算法设计

2021-11-28

semaphore-2.8.22.tar.gz

好看的 Ansible UI 项目。

2021-11-29

6000条倒闭企业数据分析.rar

6000条企业倒闭数据分析

2021-11-28

elasticsearch-dump-6.79.0.tar.gz

Elasticsearch 数据导入/导出工具，可以用于 ES 的数据备份和迁移

2021-11-28

elasticsearch-dump-6.75.0.tar.gz

Elasticsearch 数据导入/导出工具，可以用于 ES 的数据备份和迁移

2021-11-28

elasticsearch-dump-6.76.0.tar.gz

Elasticsearch 数据导入/导出工具，可以用于 ES 的数据备份和迁移

2021-11-28

elasticsearch-dump-6.78.0.tar.gz

Elasticsearch 数据导入/导出工具，可以用于 ES 的数据备份和迁移

2021-11-28

weather-icons-2.0.12.tar.gz

Weather Icons 是唯一具有 222 个天气主题图标的图标字体和 CSS，可以直接放入Bootstrap或任何需要高质量天气、海事和气象图标的项目。

2021-11-28

bytehound-x86_64-unknown-linux-gnu.tgz

Bytehound - Linux 的内存分析器

2021-11-28

caddy_2.4.6_linux_arm64.tar.gz

用 Go 编写的轻量级 Web 服务器。它相较于 Apache、Nginx 这些知名 Web 服务器，独特点在于提供了编译好的可执行文件，实现了真正的开箱即用。无需任何配置即可拥有免费的 HTTPS、自动把 Markdown 文件转化成 HTML 等人性化的功能。如果是搭建中小型的 Web 服务，它完全够用而且省时省心。

2021-11-28