- 博客(27)
- 资源 (6)
- 收藏
- 关注
转载 Linux grep命令
1.作用Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹 配的行打印出来。grep全称是Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。2.格式grep [options]3.主要参数[options]主要参数:-c:只输出匹配行的计数。-I:不区分大 小写(
2015-04-30 09:41:35 428
转载 数据挖掘10大经典算法思维导图
机器学习&数据挖掘笔记http://www.cnblogs.com/tornadomeet/category/489160.html
2015-04-24 20:02:01 3568
转载 Deep Learning 学习资料
机器学习资料:http://blog.csdn.net/zouxy09/article/category/1333962Deep Learninghttp://blog.csdn.net/zouxy09/article/category/1387932论文笔记之(一)K-means特征学习http://blog.csdn.net/zouxy09/arti
2015-04-24 19:34:16 1050
转载 Storm学习资料
storm实战入门一http://www.cnblogs.com/linjiqin/archive/2013/05/28/3104016.htmlStorm常见模式——求TOP Nhttp://www.cnblogs.com/panfeng412/archive/2012/06/16/storm-common-patterns-of-streaming-top-
2015-04-14 16:26:06 541
转载 hive与hbase集成
hive与hbase集成这篇文章最初是基于介绍HIVE-705。这个功能允许Hive QL命令访问HBase表,进行读(select)、写(insert)操作。它甚至可以基于join、union操作对hbase表和hive原生的表进行混合访问。这个功能还在不断的完善中,欢迎提出建议。存储handler在开始介绍之前,首先请阅读StorageHandlers,对存
2015-04-11 14:39:07 454
转载 github的基本使用
github的基本使用:http://blog.csdn.net/zhanghenglei/article/details/14127211github是目前流行的代码托管网站。github.com是一个网站,它为你提供一个远程版本库(你和你的协作者的工作成果最终提交在这里);同时它也是一个共享平台,你可以在这里找到数不尽的源码。关于github的安装和使用(windo
2015-04-07 12:55:34 675
转载 Hive 数据倾斜总结
转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的
2015-04-02 17:32:52 428
转载 YARN的 Resource Manager的作用
可以带着下面问题来阅读本文:1.YARN通过什么来负责管理和分配集群中资源?2.ResourceManager有几部分组成?3.管理员通过什么服务来管理集群?4.集群默认多长时间未汇报心跳,则认为其死掉?5.ApplicationACLsManager有几种权限,查看主要查看什么,修改,主要修改什么?6.ResourceScheduler在YARN中的位置?1:在Y
2015-04-02 16:47:07 1861
转载 HDFS HA和Federation安装部署方法
HDFS HA和Federation安装部署方法相比于Hadoop1.0,Hadoop 2.0中的HDFS增加了两个重大特性,HA和Federaion。HA即为High Availability,用于解决NameNode单点故障问题,该特性通过热备的方式为主NameNode提供一个备用者,一旦主NameNode出现故障,可以迅速切换至备NameNode,从而实现不间断对外提供服务。Federa
2015-04-02 16:41:39 761
转载 Hadoop2中ResourceManager的HA
hadoop2中ResourceManager的HA 大家都知道在hadoop2中对HDFS的改进很大,实现了NameNode的HA;也增加了ResourceManager。但是ResourceManager也可以实现HA。你没看错,确实是ResourceManager的HA。注意是在Apache Hadoop 2.4.1版本中开始加入的,可不是任意一个版本。我们不讲单
2015-04-02 16:23:16 581
转载 Hive总结(十)Hive 输入输出适配类(输出CSV,XML)
在最初使用 hive ,应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似,语法上有大量相同的地方,这给我们上手带来了很大的方便,但是要得心应手地写好这些语句,还需要对 hive 有较好的了解,才能结合 hive 特色写出精妙的语句。关于 hive 语言的详细语法可参考官方 wiki 的语言手册:http://wiki.apache.org/hadoop/
2015-04-02 16:06:08 527
转载 hive udaf开发入门和运行过程详解
hive udaf开发入门和运行过程详解介绍hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复杂,不直观。本文只介绍通用UDAF。U
2015-04-02 14:40:44 657 1
转载 Hive自定义UDAF详解
遇到一个Hive需求:有A、B、C三列,按A列进行聚合,求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成,但是比较繁琐,会解析成几个MR进行执行,如果自定义UDAF便可只利用一个MR完成任务。 所用Hive为0.13.1版本。UDAF有两种,第一种是比较简单的形式,利用抽象类UDAF和UDAFEvaluator,暂不做讨论。
2015-04-02 14:28:58 1047
转载 Hive总结(十二)Hive查询进阶--以及调用外部脚本
通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理,
2015-04-02 11:02:10 696
转载 Hive中分组取前N个值
背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。 解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它
2015-04-02 09:42:27 517
转载 Hbase总结(八)Hbase中的Coprocessor
http://blog.csdn.net/lifuxiangcaohui/article/details/399911831.起因(Why HBase Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(统计数据表的总行数,需要使用Counter方法,执行一次MapReduc
2015-04-02 09:10:15 519
转载 Hive的left join、left outer join和left semi join三者的区别
Hive的left join、left outer join和left semi join三者的区别Hive的Join的文档说明地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual%2BJoins以下为两个测试数据表建表语句:use test;DROP TABLE IF EX
2015-04-01 18:21:48 4610
转载 Pig基本语法
Pig Latin是一种数据流语言,变量的命名规则同java中变量的命名规则,变量名可以复用(不建议这样做,这种情况下相当与新建一个变量,同时删除原来的变量)A = load 'NYSE_dividends' (exchange, symbol, date, dividends);A = filter A by dividends > 0;A = foreach A generate
2015-04-01 17:20:11 888
转载 Overwrite在hive内部表及外部表特性
overwrite在hive内部表及外部表特性。overwrite即为重写的意思, 指定了OVERWRITE,会有以下效果:•目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。•如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。一、内部表测试
2015-04-01 17:15:42 1037
转载 Hive 子查询特别分析
Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ...确认下是否一定要求列必须唯一? 建表语句:create table tb_in_base( id bigint, devid bigint, devname string) partitio
2015-04-01 16:59:44 622
转载 hive 桶相关特性分析
1. hive 桶相关概念 桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。 抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。2. 桶作用1)数据抽样2)提升某些
2015-04-01 16:43:20 525
转载 Hive数据倾斜问题
Skew Join与Left Semi Join相关 Skew Join真实数据中数据倾斜是一定的, hadoop 中默认是使用hive.exec.reducers.bytes.per.reducer = 1000000000也就是每个节点的reduce 默认是处理1G大小的数据,如果你的join 操作也产生了数据倾斜,那么你可以在hive 中设定set hiv
2015-04-01 16:30:33 634
原创 Hive编程指南_学习笔记01
第四章: HQl的数据定义1:创建数据库 create database financials; create database if not exists financials;2: 查看数据库 show databases; 模糊查询数据库 show databases like 'h.*' ;3:创建数据库修改数据库的默认位置
2015-04-01 16:23:05 705
转载 hive 排序特性研究
1. 排序定义:所谓排序就是使一串记录,按照其中的某个或某些关键字,递增或是递减的排列。2. hive 中排序相关内容 2.1 order by order by 会对输入做全局排序,故只有一个reducer,若数据的规模比较大时,需要较长的计算时间。hive中order by 也是对一个结果集进行排序,不同于关系型数据库是底层架构。hive的hive-site.xml配置文件中的参
2015-04-01 16:09:14 528
转载 Jconsole监控tomcat 的JVM内存(远程、linux、windows)
Jconsole监控tomcat 的JVM内存(远程、linux、windows)博客分类: WEB服务器Tomcat Jconsole是JDK自带的监控工具,在JDK/bin目录下可以找到。它用于连接正在运行的本地或者远程的JVM,对运行在java应用程序的资源消耗和性能进行监控,并画出大量的图表,提供强大的可视化界面。而且本身占用的服务器内存很小,甚至
2015-04-01 15:43:30 504
转载 sqoop1.99.4 JAVA API操作
sqoop1.99.4 JAVA API操作如果你是MAVEN项目1 dependency>2 groupId>org.apache.sqoopgroupId>3 artifactId>sqoop-clientartifactId>4 version>1.99.4version>5 dependency>如果你是java项目导
2015-04-01 11:39:34 1694 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人