关闭

Hive中sql的使用

如果学过mysql或者oracle等数据库那么hive的sql肯定不会有问题,只有比较小的出入。...
阅读(33) 评论(0)

Hive的分桶详解

Hive分桶通俗点来说就是将表(或者分区,也就是hdfs上的目录而真正的数据是存储在该目录下的文件)中文件分成几个文件去存储。比如表buck(目录,里面存放了某个文件如sz.data)文件中本来是1000000条数据,由于在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便,所以我们可以分4个文件去存储。...
阅读(44) 评论(0)

Hive运行机制与使用

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。...
阅读(69) 评论(0)

Hive的安装详解

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。hive的元数据信息是存在外部数据库的,这里使用mysql,所以建议先把hadoop装起来(hadoop的安装集群),mysql的安装下面有介绍(建议在同一台机器上,别装windows上不然可能会出现一堆问题)。...
阅读(128) 评论(0)

Mapreduce之自定义InputFormat-小文件合并

需求:无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。...
阅读(51) 评论(0)

Mapreduce之自定义OutputFormat应用-日志增强

主要介绍的是自定义OutputFormat的使用,给出的需求很简单 对现有的日志文件内容进行增强。 1、从原始日志文件中读取数据 2、根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3、如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录...
阅读(38) 评论(0)

Mapreduce中的GroupingComparator应用-查询订单最大金额

这个程序自定义了GroupingComparator,Partitioner,以及排序方法...
阅读(29) 评论(0)

mapreduce应用-找出扣扣共同好友

mapreduce应用-找出扣扣共同好友...
阅读(51) 评论(0)

Mapreduce实现倒排索引建立

需求:有大量的文本(文档、网页),需要建立搜索索引...
阅读(39) 评论(0)

Mapreduce中的DistributedCache应用-解决join算法中数据倾斜问题

这里用DistributedCache(分布式缓存)来解决join算法实现中的数据倾斜问题,同样考虑那篇博文的两张表,订单表和产品表(需求就是根据外键商品id来将两张表信息合并)。...
阅读(35) 评论(0)

MapReduce编程-join算法实现

假设有订单表t_order和t_product两张数据库表,现在需要进行关联查询。这样的sql语句很容易写select a.id,a.date,b.name,b.category_id,b.price from t_order a left out join t_product b on a.pid = b.id那么怎么样用mapreduce来实现呢?...
阅读(54) 评论(0)

mapreduce&yarn的工作机制

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。...
阅读(36) 评论(0)

mapreduce原理完全剖析与shuffle机制

在前面几篇文章都都大致介绍了mapreduce的一些过程和原理,由于没学那么多所以有些表达的都很有欠缺,这里给出了mapreduce原理的完全解析,shuffle机制,属于纯原理。...
阅读(28) 评论(0)

mapreduce实现流量汇总排序程序

在流量汇总程序开发中已经写好了流量汇总程序(建议先看这篇),利用生成好的汇总过的文件接着来进行按照总流量由高到低排序。因为maptask的最终生成文件中的数据是已经排序过的,默认就是按照key 归并排序,所以在传给reduce task的时候也就是排序过的。所以我们可以将输出bean作为key,电话号码作为value来输出。...
阅读(49) 评论(0)

mapreduce的任务切片规划机制、job提交流程、Mapreduce中的分区Partitioner与流量汇总程序开发

mapreduce的任务切片规划机制、job提交流程、Mapreduce中的分区Partitioner与流量汇总程序开发...
阅读(69) 评论(0)
74条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:5863次
    • 积分:764
    • 等级:
    • 排名:千里之外
    • 原创:74篇
    • 转载:0篇
    • 译文:0篇
    • 评论:0条