hadoop_案例_1

最新推荐文章于 2023-06-04 01:12:30 发布

时冲

最新推荐文章于 2023-06-04 01:12:30 发布

阅读量379

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/scandly_java/article/details/51202789

版权

大数据专栏收录该内容

14 篇文章 0 订阅

订阅专栏

执行程序的3中方式：

1、直接在服务器上，mapreduce的执行环境是yarn，要打成jar包，放到环境里
   使用命令的方式调用，执行过程也在服务器上

2、在本地直接调用，执行过程在服务器上
   a、首先在src下放置服务器上的hadoop配置文件
   b、把MR程序打包（jar），放到桌面
   c、修改hadoop的源码（把两个包复制到src下，会优先执行，jar包里的会被覆盖）

3   本地测试(windows)，它不是hadoop本身有的，要借助于一个第三方的测试 debug工具
    1、修改hadoop的源码
   2、MR调用的代码需要改变：
       a、src不能有服务器的hadoop配置文件
       b、在调用是使用：
           Configuration config = new Configuration();
           config.set("fs.defaultFS", "hdfs://node7:8020"); (HDFS的入口地址）

1   Configuration conf = new Configuration() Configuration是在 recourseManager上

    本地测试运行时若权限不够则在入口处加 System.setProperty("HADOOP_USER_NAME", "root");

3   由于断电导致namenode都是stadby
   执行hdfs haadmin -transitionToActive --forcemanual nn1 重新切换active

案例1   从1949年到现在，每一年的每一个月的气温最高的前3个时刻
   要得到这个结果
   1 需要排序按气温排序
   2 按年月一组一组展示
   3 数据量大，一年一个reduce，多个reduce并发执行
   4 多个reduce要自定义分区，按年来分区（默认partidition是按照键模reduce数量）；
       由于是按温度排序，所以要自定义排序（因为默认是key字典排序）；
       因为要按年月分组，所以要自定义分组（默认是按照键相同分组）；
   5 由4发现一个特点，这3个都是针对键的，按照现在的需求，在key里面应该有年有月有温度
       所以推出键应该是个封装类型

   注意在自定义输入key的时候，要放弃Comparable的compareTo方法，它是用于计算默认排序和分组的方法
   map执行完后，首先执行的partition
   1 自定义partition
   2 自定义排序sort 同样的年下同样的月下根据温度降序排序的比较排序
   3 自定义分组分组也是比较
   4 接下来再写reduce

   注意在分析的时候数据包括哪些范围，是必须知道的，这里天气数据有3年的数据

案例2   社交系统中的好友推荐
       什么是离线计算，离线计算就是在你登录后已经计算好了，例如登录时你的推荐好友已经放到库里面了，直接取就行
   需求分析
       发现好友的好友就是推荐好友，出现次数越多就越值得推荐
       1 找出一个用户的所有的fof
       2 去掉是直接好友的fof 例如林志玲       小明   李刚凤姐郭美美后4个人分别通过key林志玲而依次是fof
       3 统计fof出现的次数
       4 降序排

时冲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop_案例_1

执行程序的3中方式： 1、直接在服务器上，mapreduce的执行环境是yarn，要打成jar包，放到环境里使用命令的方式调用，执行过程也在服务器上 a、通过： hadoop jar jar路径类的全限定名这个命令会把jar自动提交到服务器上运行 2、在本地直接调用，执行过程在服务器上 a、首先在src下放置服务器上的
复制链接

扫一扫

专栏目录