![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop相关
文章平均质量分 72
gdp5211314
这个作者很懒,什么都没留下…
展开
-
Apache Mahout 简介
简介: 当研究院和企业能获取足够的专项研究预算之后,能从数据和用户输入中学习的智能应用程序将变得更加常见。人们对机器学习技巧(比如说集群、协作筛选和分类)的需求前所未有地增长,无论是查找一大群人的共性还是自动标记海量 Web 内容。Apache Mahout 项目旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout 的创始者 Grant Ingersoll 介绍了机器学习的基本概念,并演示转载 2012-01-03 21:01:20 · 765 阅读 · 0 评论 -
Cascading:一个简单的Hadoop MapReduce应用
Cascading是一个架构在Hadoop上的API,用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置来快速开发复杂分布式的应用,而不用考虑背后的MapReduce。 Cascading目前依赖于Hadoop提供存储和执行架构,但是Cascading API为开发者隔离了Hadoop的技术细节,提供了不需要改变初始流程工作流定义就可以在不同的计算框架内运行的能力。 Ca原创 2012-12-02 14:35:29 · 454 阅读 · 0 评论 -
Hadoop MapReduce开发最佳实践(上篇)
本文是Hadoop最佳实践系列第二篇,上一篇为《Hadoop管理员的十个最佳实践》。相关厂商内容GitHub运维专家Jesse Newland QCon分享Github ChatOps机器人与GitHub架构演进个性化推荐系统仅是大企业专利?如何正确实施,大幅提升企业生产力?尽在QCon推荐系统专题QCon北京Node.js专场:异步非阻塞,单线程,事件驱动转载 2013-01-01 20:16:33 · 722 阅读 · 0 评论 -
DistributedCache使用
DistributedCache使用: 1.import包 Java代码 import org.apache.hadoop.filecache.DistributedCache; 2.加到Cache中 Java代码 DistributedCache.addCacheFile(new Path(args[++i转载 2013-01-22 17:06:11 · 561 阅读 · 0 评论 -
hadoop杂记-为什么会有Map-reduce v2 (Yarn)
前言:有一段时间没有写博客了(发现这是我博客最常见的开头,不过这次间隔真的好长),前段时间事情比较多,所以耽搁得也很多。现在准备计划写一个新的专题,叫做《hadoop杂记》,里面的文章有深有浅,文章不是按入门-中级-高级的顺序组织的,如果想看看从入门到深入的书,比较推荐《the definitive guide of hadoop》。今天主要想写写关于map-reduce v2(或者叫转载 2013-03-26 10:20:04 · 620 阅读 · 0 评论 -
Hive Lateral view介绍
1). Lateral View语法[html] view plaincopylateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* fromClause: FROM baseTable (lateralView)*转载 2013-04-12 14:11:16 · 856 阅读 · 0 评论 -
hive列转行--行转列问题
列转行--行转列问题 问题:使用case when实现行转列 解决: www.2cto.com 1、测试准备: CREATE TABLE StudentScores( UserName NVARCHAR2(20), --学生姓名转载 2013-04-12 13:47:30 · 6201 阅读 · 0 评论 -
hive中自定义函数(UDAF)实现多行字符串拼接为一行
函数如何使用:hive> desc concat_test;OKa intb stringhive> select * from concat_test;OK1 good2 other1 nice1 hellohive> select a,concat(b,',') fr转载 2013-04-12 14:37:57 · 1749 阅读 · 0 评论 -
hive---group_concat()函数总结
group_concat()函数总结group_concat(),手册上说明:该函数返回带有来自一个组的连接的非NULL值的字符串结果。比较抽象,难以理解。通俗点理解,其实是这样的:group_concat()会计算哪些行属于同一组,将属于同一组的列显示出来。要返回哪些列,由函数参数(就是字段名)决定。分组必须有个标准,就是根据group by指定的列进行分转载 2013-04-12 17:15:41 · 22511 阅读 · 4 评论 -
Hadoop序列化与编码浅析
之前在线上遇上过乱码问题,后来对这块相关的稍作了简单梳理。 对于需要保存和处理大规模数据的Hadoop来说,每一个MapReduce任务都是对几个类型的几十亿对象进行序列化和反序列化,可以说Hadoop序列化是Hadoop的核心部分之一。 而Java内建的序列化机制,由于它在序列化时输出保存大量的附加信息,比如超类的信息也会递归地被保存下来,导致序列化结果膨转载 2013-10-10 19:25:23 · 1007 阅读 · 0 评论 -
云梯表Join的倾斜问题以及解决方法
什么是倾斜问题问题症状写HQL语句的时候常常会遇到表Join的情况,一个简单的Join会被Hive解释成一个MapReduce任务,Map端分别读取两个表的数据,Reduce做真正的Join操作。如果执行的过程中,如果发现有些Reduce任务比其他的Reduce任务慢很多,往往是发生了倾斜问题。问题分析举个栗子:select a.*,转载 2013-10-18 09:26:13 · 831 阅读 · 0 评论 -
hive mapjoin使用
今天遇到一个hive的问题,如下hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 该语句中B表有30亿行记录,A表只有100行记录,而且B表中数据倾斜特别严重,有一个key上有15亿行记录,在运行过程中特别的慢,而且在reduece的过程中遇有内存不够而报错。转载 2014-01-07 10:45:13 · 572 阅读 · 0 评论 -
hadoop---map/reduce中的一个坑
请看一下代码示例:在reduce中有如下代码String s = values.next();while(values.hasNext()){String s2 = values.next().toString();output.collect(new Text(s+s2),...)}s始终是values.next()的数值,也就是说,value.next()的引用会被原创 2012-12-02 14:32:23 · 375 阅读 · 0 评论 -
mapreduce的二次排序 SecondarySort
关于二次排序主要涉及到这么几个东西:在0.20.0 以前使用的是setPartitionerClass setOutputkeyComparatorClasssetOutputValueGroupingComparator 在0.20.0以后使用是job.setPartitionerClass(Partitioner p);job.se转载 2012-10-26 16:29:39 · 397 阅读 · 0 评论 -
Apache Mahout:适合所有人的可扩展机器学习框架
简介: Apache Mahout 专家 Grant Ingersoll 引领您快速了解最新版本 Mahout 中的机器学习库,并通过示例说明如何部署和扩展 Mahout 的某些最常用的算法。在软件的世界中,两年就像是无比漫长的时光。在过去两年中,我们看到了社交媒体的风生水起、大规模集群计算的商业化(归功于 Amazon 和 RackSpace 这样的参与者),也看到了数据的迅猛增长以转载 2012-01-03 21:02:51 · 2053 阅读 · 0 评论 -
探索Hadoop outputFormat
Hadoop常常被用作大型数据处理生态系统中的一部分。它的优势在于能够批量地处理大量数据,并将结果以最好的方式与其他系统相集成。从高层次角度来看,整个过程就是Hadoop接收输入文件、使用自定义转换(Map-Reduce步骤)获得内容流,以及将输出文件的结果写回磁盘。上个月InfoQ展示了怎样在第一个步骤中,使用InputFormat类来更好地对接收输入文件进行控制。而在本文中,我们将同大家一起探转载 2012-03-11 16:26:54 · 749 阅读 · 0 评论 -
让reduce的values按照自己要求的顺序到来
1.需要的类SortKeyComparatorpackage com.taobao.imgspaceanalysis.util;import org.apache.hadoop.io.WritableComparator;/** * 自定义Comparator * @author zaixing * @creation 2012-03-19 */原创 2012-03-29 19:20:56 · 669 阅读 · 0 评论 -
在mapreduce中怎样解决数据倾斜
在mapreduce聚合key中所有values的时候,如果一个key对应了很多values,就会产生数据倾斜的问题。这里介绍了一个处理数据倾斜的小技巧,以两个mapper为例:一个mapper中添加://id分裂Random random = new Random();int num = random.nextInt(StaticCommonInfo.ID_SPLIT_NUM原创 2012-03-29 19:26:21 · 2834 阅读 · 0 评论 -
map/reduce优化的几点建议
1 选择Mapper的数量 Hadoop处理大量小文件的性能比较逊色,主要由于生成的每个分片都是一整个文件,Map操作时只会处理很少的输入数据,但是会产生很多Map任务,每个Map任务的运行都包括产生、调度和结束时间,大量的Map任务会造成一定的性能损失。可以通过Java虚拟机(JVM)重用来解决这个问题。hadoop默认每个JVM只运行一个任务。使用JVM重用后,一个JVM可以转载 2012-06-06 15:02:55 · 1012 阅读 · 0 评论 -
java删除hdfs文件的例子
import java.io.BufferedInputStream;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;转载 2012-06-07 20:01:11 · 1192 阅读 · 0 评论 -
深度分析如何在Hadoop中控制Map的数量
深度分析如何在Hadoop中控制Map的数量 很多文档中描述,Mapper的数量在默认情况下不可直接控制干预,因为Mapper的数量由输入的大小和个数决定。在默认情况下,最终input占据了多少block,就应该启动多少个Mapper。如果输入的文件数量巨大,但是每个文件的size都小于HDFS的blockSize,那么会造成启动的Mapper等于文件的数量(即每个文转载 2012-06-25 14:35:34 · 558 阅读 · 0 评论 -
一种基于有序序列mapjoin的方法
在解决数据倾斜问题时,我们经常会采用一种方式:mapjoin,按照hive的实现,mapjoin是将其中一张表在map的过程中加载到内存中,但是如果在join的表中,最小的表的数据量也不小的情况下。我们该怎么办呢?其中一种解决的方式是:将两张表需要实现排序(直接用hadoop解决),如下,两张表都是有序的。接下来,我们将其中一张较大的表(比如说表1),输入到一个job中的map原创 2012-06-29 18:55:06 · 595 阅读 · 0 评论 -
本地调试hadoop
1.首先在windows环境下装载cygwin,将cygwin的安装的bin目录配置在系统变量中。2.在map/reduce的main函数中,配置两个参数://表明采用本地的文件系统conf.set("fs.default.name", "file:///");conf.set("mapred.job.tracker", "local");3.加载hadoop所有的依赖包。原创 2012-09-19 19:31:03 · 804 阅读 · 0 评论 -
hadoop job解决大数据量关联时数据倾斜的一种办法
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供一种解转载 2012-10-30 11:25:51 · 550 阅读 · 0 评论 -
Join语法
hive表连接支持的语法如下:join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI转载 2014-01-07 10:44:27 · 633 阅读 · 0 评论