hadoop
成都往右
趁着年轻多熬夜
展开
-
mapreduce框架设计思想,wordcount程序原理与实现
mapreduce框架设计思想,wordcount程序原理与实现原创 2017-10-08 22:12:20 · 1851 阅读 · 0 评论 -
mapreduce实现流量汇总排序程序
在流量汇总程序开发中已经写好了流量汇总程序(建议先看这篇),利用生成好的汇总过的文件接着来进行按照总流量由高到低排序。因为maptask的最终生成文件中的数据是已经排序过的,默认就是按照key 归并排序,所以在传给reduce task的时候也就是排序过的。所以我们可以将输出bean作为key,电话号码作为value来输出。原创 2017-10-12 21:11:43 · 589 阅读 · 0 评论 -
mapreduce原理完全剖析与shuffle机制
在前面几篇文章都都大致介绍了mapreduce的一些过程和原理,由于没学那么多所以有些表达的都很有欠缺,这里给出了mapreduce原理的完全解析,shuffle机制,属于纯原理。原创 2017-10-12 22:59:33 · 622 阅读 · 0 评论 -
mapreduce&yarn的工作机制
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。原创 2017-10-13 10:21:54 · 481 阅读 · 0 评论 -
MapReduce编程-join算法实现
假设有订单表t_order和t_product两张数据库表,现在需要进行关联查询。这样的sql语句很容易写select a.id,a.date,b.name,b.category_id,b.price from t_order a left out join t_product b on a.pid = b.id那么怎么样用mapreduce来实现呢?原创 2017-10-13 13:52:00 · 649 阅读 · 0 评论 -
Flume的安装与使用详解
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中 Flume的运行机制原创 2017-10-24 21:33:17 · 755 阅读 · 0 评论 -
Mapreduce中的DistributedCache应用-解决join算法中数据倾斜问题
这里用DistributedCache(分布式缓存)来解决join算法实现中的数据倾斜问题,同样考虑那篇博文的两张表,订单表和产品表(需求就是根据外键商品id来将两张表信息合并)。原创 2017-10-16 13:49:34 · 1587 阅读 · 0 评论 -
Mapreduce实现倒排索引建立
需求:有大量的文本(文档、网页),需要建立搜索索引原创 2017-10-16 15:58:28 · 1075 阅读 · 0 评论 -
azkaban的安装部署、使用与常见问题解决
为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;原创 2017-10-25 13:05:47 · 9475 阅读 · 5 评论 -
mapreduce应用-找出扣扣共同好友
mapreduce应用-找出扣扣共同好友原创 2017-10-16 20:06:21 · 924 阅读 · 0 评论 -
Mapreduce之自定义InputFormat-小文件合并
需求:无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案。原创 2017-10-20 10:48:31 · 1038 阅读 · 0 评论 -
hadoop中的PRC框架使用
hadoop中的PRC框架使用原创 2017-10-05 22:18:04 · 516 阅读 · 0 评论 -
使用mapreduce进行流量汇总程序开发
使用mapreduce进行流量汇总程序开发原创 2017-10-08 23:34:22 · 628 阅读 · 0 评论 -
mapreduce的任务切片规划机制、job提交流程、Mapreduce中的分区Partitioner与流量汇总程序开发
mapreduce的任务切片规划机制、job提交流程、Mapreduce中的分区Partitioner与流量汇总程序开发原创 2017-10-09 13:11:41 · 1074 阅读 · 0 评论 -
hadoop的shell命令操作
这里介绍的是hadoop的hdfs的shell操作,基本上与linux命令是一样的只有很小的区别。原创 2017-10-03 14:04:31 · 1289 阅读 · 0 评论 -
hadoop集群安装、常见问题解决
HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,而mapreduce必须放在一个资源调度平台(yarn)上来跑,由平台分布内存cup等信息。两者逻辑上分离,但物理上常在一起原创 2017-10-03 13:04:34 · 864 阅读 · 0 评论 -
Mapreduce之自定义OutputFormat应用-日志增强
主要介绍的是自定义OutputFormat的使用,给出的需求很简单 对现有的日志文件内容进行增强。 1、从原始日志文件中读取数据 2、根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 3、如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录原创 2017-10-19 11:46:49 · 642 阅读 · 0 评论 -
Sqoop的安装与数据的导入导出
Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。其机制是将导入或导出命令翻译成mapreduce程序来实现原创 2017-10-27 11:08:41 · 482 阅读 · 0 评论 -
客户端向HDFS读写数据机制
客户端向HDFS读写数据机制原创 2017-10-04 23:05:10 · 683 阅读 · 0 评论 -
HDFS之namenode管理元数据机制及一些问题
HDFS之namenode管理元数据机制及一些问题原创 2017-10-05 18:44:33 · 6036 阅读 · 0 评论 -
java api操作HDFS
java api操作HDFS原创 2017-10-05 21:09:14 · 842 阅读 · 0 评论 -
Mapreduce中的GroupingComparator应用-查询订单最大金额
这个程序自定义了GroupingComparator,Partitioner,以及排序方法原创 2017-10-16 22:42:36 · 669 阅读 · 0 评论