自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Make progress step by step everyday.....

主要从事JavaEE,Hadoop,Spark方面的工作,业余兴趣爱好NLP,DM,ML和DL相关方面的技术

  • 博客(27)
  • 资源 (6)
  • 收藏
  • 关注

原创 算法学习

风生水起博客http://www.cnblogs.com/end/category/251806.html

2015-04-30 09:49:14 400

转载 Linux grep命令

1.作用Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹 配的行打印出来。grep全称是Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。2.格式grep [options]3.主要参数[options]主要参数:-c:只输出匹配行的计数。-I:不区分大 小写(

2015-04-30 09:41:35 428

转载 数据挖掘10大经典算法思维导图

机器学习&数据挖掘笔记http://www.cnblogs.com/tornadomeet/category/489160.html

2015-04-24 20:02:01 3568

转载 Deep Learning 学习资料

机器学习资料:http://blog.csdn.net/zouxy09/article/category/1333962Deep Learninghttp://blog.csdn.net/zouxy09/article/category/1387932论文笔记之(一)K-means特征学习http://blog.csdn.net/zouxy09/arti

2015-04-24 19:34:16 1050

转载 Storm学习资料

storm实战入门一http://www.cnblogs.com/linjiqin/archive/2013/05/28/3104016.htmlStorm常见模式——求TOP Nhttp://www.cnblogs.com/panfeng412/archive/2012/06/16/storm-common-patterns-of-streaming-top-

2015-04-14 16:26:06 541

转载 hive与hbase集成

hive与hbase集成这篇文章最初是基于介绍HIVE-705。这个功能允许Hive QL命令访问HBase表,进行读(select)、写(insert)操作。它甚至可以基于join、union操作对hbase表和hive原生的表进行混合访问。这个功能还在不断的完善中,欢迎提出建议。存储handler在开始介绍之前,首先请阅读StorageHandlers,对存

2015-04-11 14:39:07 454

转载 github的基本使用

github的基本使用:http://blog.csdn.net/zhanghenglei/article/details/14127211github是目前流行的代码托管网站。github.com是一个网站,它为你提供一个远程版本库(你和你的协作者的工作成果最终提交在这里);同时它也是一个共享平台,你可以在这里找到数不尽的源码。关于github的安装和使用(windo

2015-04-07 12:55:34 675

转载 Hive 数据倾斜总结

转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的

2015-04-02 17:32:52 428

转载 YARN的 Resource Manager的作用

可以带着下面问题来阅读本文:1.YARN通过什么来负责管理和分配集群中资源?2.ResourceManager有几部分组成?3.管理员通过什么服务来管理集群?4.集群默认多长时间未汇报心跳,则认为其死掉?5.ApplicationACLsManager有几种权限,查看主要查看什么,修改,主要修改什么?6.ResourceScheduler在YARN中的位置?1:在Y

2015-04-02 16:47:07 1861

转载 HDFS HA和Federation安装部署方法

HDFS HA和Federation安装部署方法相比于Hadoop1.0,Hadoop 2.0中的HDFS增加了两个重大特性,HA和Federaion。HA即为High Availability,用于解决NameNode单点故障问题,该特性通过热备的方式为主NameNode提供一个备用者,一旦主NameNode出现故障,可以迅速切换至备NameNode,从而实现不间断对外提供服务。Federa

2015-04-02 16:41:39 761

转载 Hadoop2中ResourceManager的HA

hadoop2中ResourceManager的HA 大家都知道在hadoop2中对HDFS的改进很大,实现了NameNode的HA;也增加了ResourceManager。但是ResourceManager也可以实现HA。你没看错,确实是ResourceManager的HA。注意是在Apache Hadoop 2.4.1版本中开始加入的,可不是任意一个版本。我们不讲单

2015-04-02 16:23:16 581

转载 Hive总结(十)Hive 输入输出适配类(输出CSV,XML)

在最初使用 hive ,应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似,语法上有大量相同的地方,这给我们上手带来了很大的方便,但是要得心应手地写好这些语句,还需要对 hive 有较好的了解,才能结合 hive 特色写出精妙的语句。关于 hive 语言的详细语法可参考官方 wiki 的语言手册:http://wiki.apache.org/hadoop/

2015-04-02 16:06:08 527

转载 hive udaf开发入门和运行过程详解

hive udaf开发入门和运行过程详解介绍hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用​​所有功能,但是UDAF就写的比较复杂,不直观。本文只介绍通用UDAF。U

2015-04-02 14:40:44 657 1

转载 Hive自定义UDAF详解

遇到一个Hive需求:有A、B、C三列,按A列进行聚合,求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成,但是比较繁琐,会解析成几个MR进行执行,如果自定义UDAF便可只利用一个MR完成任务。         所用Hive为0.13.1版本。UDAF有两种,第一种是比较简单的形式,利用抽象类UDAF和UDAFEvaluator,暂不做讨论。

2015-04-02 14:28:58 1047

转载 Hive总结(十二)Hive查询进阶--以及调用外部脚本

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理,

2015-04-02 11:02:10 696

转载 Hive中分组取前N个值

背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。 解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它

2015-04-02 09:42:27 517

转载 Hbase总结(八)Hbase中的Coprocessor

http://blog.csdn.net/lifuxiangcaohui/article/details/399911831.起因(Why HBase  Coprocessor)HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的(统计数据表的总行数,需要使用Counter方法,执行一次MapReduc

2015-04-02 09:10:15 519

转载 Hive的left join、left outer join和left semi join三者的区别

Hive的left join、left outer join和left semi join三者的区别Hive的Join的文档说明地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual%2BJoins以下为两个测试数据表建表语句:use test;DROP TABLE IF EX

2015-04-01 18:21:48 4610

转载 Pig基本语法

Pig Latin是一种数据流语言,变量的命名规则同java中变量的命名规则,变量名可以复用(不建议这样做,这种情况下相当与新建一个变量,同时删除原来的变量)A = load 'NYSE_dividends' (exchange, symbol, date, dividends);A = filter A by dividends > 0;A = foreach A generate

2015-04-01 17:20:11 888

转载 Overwrite在hive内部表及外部表特性

overwrite在hive内部表及外部表特性。overwrite即为重写的意思, 指定了OVERWRITE,会有以下效果:•目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。•如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。一、内部表测试

2015-04-01 17:15:42 1037

转载 Hive 子查询特别分析

Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ...确认下是否一定要求列必须唯一? 建表语句:create table  tb_in_base(   id  bigint,   devid bigint,    devname string) partitio

2015-04-01 16:59:44 622

转载 hive 桶相关特性分析

1. hive 桶相关概念   桶(bucket)是指将表或分区中指定列的值为key进行hash,hash到指定的桶中,这样可以支持高效采样工作。    抽样(sampling)可以在全体数据上进行采样,这样效率自然就低,它还是要去访问所有数据。而如果一个表已经对某一列制作了bucket,就可以采样所有桶中指定序号的某个桶,这就减少了访问量。2. 桶作用1)数据抽样2)提升某些

2015-04-01 16:43:20 525

转载 Hive数据倾斜问题

Skew Join与Left Semi Join相关 Skew Join真实数据中数据倾斜是一定的, hadoop 中默认是使用hive.exec.reducers.bytes.per.reducer = 1000000000也就是每个节点的reduce 默认是处理1G大小的数据,如果你的join 操作也产生了数据倾斜,那么你可以在hive 中设定set hiv

2015-04-01 16:30:33 634

原创 Hive编程指南_学习笔记01

第四章: HQl的数据定义1:创建数据库  create database financials;  create database  if not exists financials;2: 查看数据库  show databases;   模糊查询数据库  show databases like 'h.*' ;3:创建数据库修改数据库的默认位置

2015-04-01 16:23:05 705

转载 hive 排序特性研究

1.  排序定义:所谓排序就是使一串记录,按照其中的某个或某些关键字,递增或是递减的排列。2. hive 中排序相关内容 2.1 order by order by 会对输入做全局排序,故只有一个reducer,若数据的规模比较大时,需要较长的计算时间。hive中order by 也是对一个结果集进行排序,不同于关系型数据库是底层架构。hive的hive-site.xml配置文件中的参

2015-04-01 16:09:14 528

转载 Jconsole监控tomcat 的JVM内存(远程、linux、windows)

Jconsole监控tomcat 的JVM内存(远程、linux、windows)博客分类: WEB服务器Tomcat        Jconsole是JDK自带的监控工具,在JDK/bin目录下可以找到。它用于连接正在运行的本地或者远程的JVM,对运行在java应用程序的资源消耗和性能进行监控,并画出大量的图表,提供强大的可视化界面。而且本身占用的服务器内存很小,甚至

2015-04-01 15:43:30 504

转载 sqoop1.99.4 JAVA API操作

sqoop1.99.4 JAVA API操作如果你是MAVEN项目1 dependency>2 groupId>org.apache.sqoopgroupId>3 artifactId>sqoop-clientartifactId>4 version>1.99.4version>5 dependency>如果你是java项目导

2015-04-01 11:39:34 1694 1

Struts2 + Spring + ibatis

Struts2 + Spring + ibatis 比较完整的Demo,入门学习

2014-12-14

SSH整合分页Demo入门

SSH整合分页Demo入门

2014-10-26

ajax源代码

一个很不错ajax例子demo,代码中主要涉及的技术有ajax,xml,js,servle等,技术的综合使用,让你跟深刻的了解ajax原理

2013-04-11

EXt 学习API

EXt 学习API 个人感觉不错,而且是中文版的!

2013-04-08

java面试题

java面试题:包括有:代码与编程题,XML ,IO,线程类,Socket,数据库知识等

2013-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除