hadoop——温度作业和五大视频作业的map输入类型总结

温度作业和五大视频作业的map输入类型总结:

/**这里map用的是<LongWritable, Text, Text, IntWritable> 类型

而不是<LongWritable,Text,Text,Text>类型,因为需求后面还要求温度的平均值,所以要
能运算的Intwritable值,同理五大视频作业自定义5个指标也需要相加,因此在TVWritable这个类放进去五个
int值的指标(IntWritable 只能存储一个数据),如果这五个指标直接用Text存储是不能运算的,后面reduce就无法进行
*/
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop分布式系统是一个开源的大数据处理框架,主要用于存储和分析海量数据。它的核心组件主要包括Hadoop Distributed File System (HDFS) 和 MapReduce。大作业通常指的是在Hadoop平台上执行的大型数据处理任务。 1. **HDFS(Hadoop Distributed File System)**:HDFS是一个高容错、高可扩展的文件系统,将数据分布在多个节点上,提供高吞吐量的数据访问。每个数据块会被复制到集群的不同节点,保证了数据的冗余性和可靠性。 2. **MapReduce**:这是一个用于大规模数据并行计算的模型,将复杂的任务分解为一系列小任务(映射器阶段)和汇总结果的任务(归约器阶段)。这种方式使得开发者无需关注底层细节,只需编写对输入和输出进行操作的Map和Reduce函数。 3. **YARN(Yet Another Resource Negotiator)**:是Hadoop的新资源调度器,它允许用户在单个集群中运行各种不同类型作业,包括MapReduce、实时流处理等。 4. **Hive, Pig, HBase**:这些工具是Hadoop生态系统的一部分,提供了更高级别的接口(SQL查询语言或类似Pig Latin的语言),让用户能更容易地进行数据分析。 完成Hadoop分布式系统的作业可能涉及设计和实现MapReduce任务、配置HDFS和YARN,以及优化性能和故障恢复策略。相关的作业可能包括数据清洗、数据转换、数据分析、甚至是构建复杂的数据挖掘模型。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值