2015年04月_XiaoGuang-Xu

10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创算法学习

风生水起博客http://www.cnblogs.com/end/category/251806.html

2015-04-30 09:49:14 400

转载 Linux grep命令

1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是Global Regular Expression Print，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep [options]3.主要参数[options]主要参数：－c：只输出匹配行的计数。－I：不区分大小写(

2015-04-30 09:41:35 428

转载数据挖掘10大经典算法思维导图

机器学习&数据挖掘笔记http://www.cnblogs.com/tornadomeet/category/489160.html

2015-04-24 20:02:01 3568

转载 Deep Learning 学习资料

机器学习资料：http://blog.csdn.net/zouxy09/article/category/1333962Deep Learninghttp://blog.csdn.net/zouxy09/article/category/1387932论文笔记之（一）K-means特征学习http://blog.csdn.net/zouxy09/arti

2015-04-24 19:34:16 1050

转载 Storm学习资料

storm实战入门一http://www.cnblogs.com/linjiqin/archive/2013/05/28/3104016.htmlStorm常见模式——求TOP Nhttp://www.cnblogs.com/panfeng412/archive/2012/06/16/storm-common-patterns-of-streaming-top-

2015-04-14 16:26:06 541

转载 hive与hbase集成

hive与hbase集成这篇文章最初是基于介绍HIVE-705。这个功能允许Hive QL命令访问HBase表，进行读（select）、写（insert）操作。它甚至可以基于join、union操作对hbase表和hive原生的表进行混合访问。这个功能还在不断的完善中，欢迎提出建议。存储handler在开始介绍之前，首先请阅读StorageHandlers，对存

2015-04-11 14:39:07 454

转载 github的基本使用

github的基本使用：http://blog.csdn.net/zhanghenglei/article/details/14127211github是目前流行的代码托管网站。github.com是一个网站，它为你提供一个远程版本库（你和你的协作者的工作成果最终提交在这里）；同时它也是一个共享平台，你可以在这里找到数不尽的源码。关于github的安装和使用（windo

2015-04-07 12:55:34 675

转载 Hive 数据倾斜总结

转载：http://www.tbdata.org/archives/2109几个比较特殊的点都提到了，大家可以作为参考。在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的

2015-04-02 17:32:52 428

转载 YARN的 Resource Manager的作用

可以带着下面问题来阅读本文：1.YARN通过什么来负责管理和分配集群中资源？2.ResourceManager有几部分组成？3.管理员通过什么服务来管理集群？4.集群默认多长时间未汇报心跳，则认为其死掉？5.ApplicationACLsManager有几种权限，查看主要查看什么，修改，主要修改什么？6.ResourceScheduler在YARN中的位置？1：在Y

2015-04-02 16:47:07 1861

转载 HDFS HA和Federation安装部署方法

HDFS HA和Federation安装部署方法相比于Hadoop1.0，Hadoop 2.0中的HDFS增加了两个重大特性，HA和Federaion。HA即为High Availability，用于解决NameNode单点故障问题，该特性通过热备的方式为主NameNode提供一个备用者，一旦主NameNode出现故障，可以迅速切换至备NameNode，从而实现不间断对外提供服务。Federa

2015-04-02 16:41:39 761

转载 Hadoop2中ResourceManager的HA

hadoop2中ResourceManager的HA 大家都知道在hadoop2中对HDFS的改进很大，实现了NameNode的HA；也增加了ResourceManager。但是ResourceManager也可以实现HA。你没看错，确实是ResourceManager的HA。注意是在Apache Hadoop 2.4.1版本中开始加入的，可不是任意一个版本。我们不讲单

2015-04-02 16:23:16 581

转载 Hive总结（十）Hive 输入输出适配类（输出CSV,XML）

在最初使用 hive ，应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似，语法上有大量相同的地方，这给我们上手带来了很大的方便，但是要得心应手地写好这些语句，还需要对 hive 有较好的了解，才能结合 hive 特色写出精妙的语句。关于 hive 语言的详细语法可参考官方 wiki 的语言手册：http://wiki.apache.org/hadoop/

2015-04-02 16:06:08 527

转载 hive udaf开发入门和运行过程详解

hive udaf开发入门和运行过程详解介绍hive的用户自定义聚合函数（UDAF）是一个很好的功能，集成了先进的数据处理。hive有两种UDAF：简单和通用。顾名思义，简单的UDAF，写的相当简单的，但因为使用Java反射导致性能损失，而且有些特性不能使用，如可变长度参数列表。通用UDAF可以使用所有功能，但是UDAF就写的比较复杂，不直观。本文只介绍通用UDAF。U

2015-04-02 14:40:44 657 1

转载 Hive自定义UDAF详解

遇到一个Hive需求：有A、B、C三列，按A列进行聚合，求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成，但是比较繁琐，会解析成几个MR进行执行，如果自定义UDAF便可只利用一个MR完成任务。所用Hive为0.13.1版本。UDAF有两种，第一种是比较简单的形式，利用抽象类UDAF和UDAFEvaluator，暂不做讨论。

2015-04-02 14:28:58 1047

转载 Hive总结（十二）Hive查询进阶--以及调用外部脚本

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的，要生成这种整体有序的结果，就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序，你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理，

2015-04-02 11:02:10 696

转载 Hive中分组取前N个值

背景假设有一个学生各门课的成绩的表单，应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。解决思路对于取出每科成绩前100名的学生成绩，针对学生成绩表，根据学科，成绩做order by排序,然后对排序后的成绩，执行自定义函数row_number(),必须带一个或者多个列参数，如ROW_NUMBER(col1, ....)，它

2015-04-02 09:42:27 517

转载 Hbase总结（八）Hbase中的Coprocessor

http://blog.csdn.net/lifuxiangcaohui/article/details/399911831.起因(Why HBase Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括：无法轻易建立“二级索引”，难以执行求和、计数、排序等操作。比如，在旧版本的(统计数据表的总行数，需要使用Counter方法，执行一次MapReduc

2015-04-02 09:10:15 519

转载 Hive的left join、left outer join和left semi join三者的区别

Hive的left join、left outer join和left semi join三者的区别Hive的Join的文档说明地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual%2BJoins以下为两个测试数据表建表语句：use test;DROP TABLE IF EX

2015-04-01 18:21:48 4610

转载 Pig基本语法

Pig Latin是一种数据流语言，变量的命名规则同java中变量的命名规则，变量名可以复用（不建议这样做，这种情况下相当与新建一个变量，同时删除原来的变量）A = load 'NYSE_dividends' (exchange, symbol, date, dividends);A = filter A by dividends > 0;A = foreach A generate

2015-04-01 17:20:11 888

转载 Overwrite在hive内部表及外部表特性

overwrite在hive内部表及外部表特性。overwrite即为重写的意思，指定了OVERWRITE，会有以下效果：•目标表（或者分区）中的内容（如果有）会被删除，然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。•如果目标表（分区）已经有一个文件，并且文件名和 filepath 中的文件名冲突，那么现有的文件会被新文件所替代。一、内部表测试

2015-04-01 17:15:42 1037

转载 Hive 子查询特别分析

Hive只支持在FROM子句中使用子查询，子查询必须有名字，并且列必须唯一：SELECT ... FROM(subquery) name ...确认下是否一定要求列必须唯一？建表语句：create table tb_in_base( id bigint, devid bigint, devname string) partitio

2015-04-01 16:59:44 622

转载 hive 桶相关特性分析

1. hive 桶相关概念桶(bucket)是指将表或分区中指定列的值为key进行hash，hash到指定的桶中，这样可以支持高效采样工作。抽样（sampling）可以在全体数据上进行采样，这样效率自然就低，它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket，就可以采样所有桶中指定序号的某个桶，这就减少了访问量。2. 桶作用1）数据抽样2）提升某些

2015-04-01 16:43:20 525

转载 Hive数据倾斜问题

Skew Join与Left Semi Join相关 Skew Join真实数据中数据倾斜是一定的, hadoop 中默认是使用hive.exec.reducers.bytes.per.reducer = 1000000000也就是每个节点的reduce 默认是处理1G大小的数据，如果你的join 操作也产生了数据倾斜，那么你可以在hive 中设定set hiv

2015-04-01 16:30:33 634

原创 Hive编程指南_学习笔记01

第四章： HQl的数据定义1：创建数据库 create database financials; create database if not exists financials;2: 查看数据库 show databases; 模糊查询数据库 show databases like 'h.*' ;3：创建数据库修改数据库的默认位置

2015-04-01 16:23:05 705

转载 hive 排序特性研究

1. 排序定义：所谓排序就是使一串记录，按照其中的某个或某些关键字，递增或是递减的排列。2. hive 中排序相关内容 2.1 order by order by 会对输入做全局排序，故只有一个reducer,若数据的规模比较大时，需要较长的计算时间。hive中order by 也是对一个结果集进行排序，不同于关系型数据库是底层架构。hive的hive-site.xml配置文件中的参

2015-04-01 16:09:14 528

转载 Jconsole监控tomcat 的JVM内存(远程、linux、windows)

Jconsole监控tomcat 的JVM内存(远程、linux、windows)博客分类： WEB服务器Tomcat Jconsole是JDK自带的监控工具，在JDK/bin目录下可以找到。它用于连接正在运行的本地或者远程的JVM，对运行在java应用程序的资源消耗和性能进行监控，并画出大量的图表，提供强大的可视化界面。而且本身占用的服务器内存很小，甚至

2015-04-01 15:43:30 504

转载 sqoop1.99.4 JAVA API操作

sqoop1.99.4 JAVA API操作如果你是MAVEN项目1 dependency>2 groupId>org.apache.sqoopgroupId>3 artifactId>sqoop-clientartifactId>4 version>1.99.4version>5 dependency>如果你是java项目导

2015-04-01 11:39:34 1694 1