执行程序的3中方式:
1、直接在服务器上,mapreduce的执行环境是yarn,要打成jar包,放到环境里
使用命令的方式调用,执行过程也在服务器上
2、在本地直接调用,执行过程在服务器上
a、首先在src下放置服务器上的hadoop配置文件
b、把MR程序打包(jar),放到桌面
c、修改hadoop的源码 (把两个包复制到src下,会优先执行,jar包里的会被覆盖)
3 本地测试(windows),它不是hadoop本身有的,要借助于一个第三方的测试 debug工具
1、修改hadoop的源码
2、MR调用的代码需要改变:
a、src不能有服务器的hadoop配置文件
b、在调用是使用:
Configuration config = new Configuration();
config.set("fs.defaultFS", "hdfs://node7:8020"); (HDFS的入口地址)
1 Configuration conf = new Configuration() Configuration是在 recourseManager上
本地测试运行时若权限不够 则在入口处加 System.setProperty("HADOOP_USER_NAME", "root");
3 由于断电导致namenode都是stadby
执行hdfs haadmin -transitionToActive --forcemanual nn1 重新切换active
案例1 从1949年到现在,每一年的每一个月的气温最高的前3个时刻
要得到这个结果
1 需要排序 按气温排序
2 按年月一组一组展示
3 数据量大,一年一个reduce,多个reduce并发执行
4 多个reduce要自定义分区,按年来分区(默认partidition是按照键模reduce数量);
由于是按温度排序,所以要自定义排序(因为默认是key字典排序);
因为要按年月分组,所以要自定义分组(默认是按照键相同分组);
5 由4发现一个特点,这3个都是针对键的,按照现在的需求,在key里面应该有年有月有温度
所以推出 键应该是个封装类型
注意 在自定义输入key的时候,要放弃Comparable的compareTo方法,它是用于计算默认排序和分组的方法
map执行完后,首先执行的partition
1 自定义partition
2 自定义排序sort 同样的年下同样的月下根据温度降序排序的比较排序
3 自定义分组 分组也是比较
4 接下来再写reduce
注意 在分析的时候 数据包括哪些范围,是必须知道的,这里天气数据有3年的数据
案例2 社交系统中的好友推荐
什么是离线计算,离线计算就是在你登录后已经计算好了,例如 登录时你的推荐好友已经放到库里面了,直接取就行
需求分析
发现 好友的好友就是推荐好友,出现次数越多就越值得推荐
1 找出一个用户的所有的fof
2 去掉是直接好友的fof 例如 林志玲 小明 李刚 凤姐 郭美美 后4个人分别通过key林志玲而依次是fof
3 统计fof出现的次数
4 降序排
1、直接在服务器上,mapreduce的执行环境是yarn,要打成jar包,放到环境里
使用命令的方式调用,执行过程也在服务器上
2、在本地直接调用,执行过程在服务器上
a、首先在src下放置服务器上的hadoop配置文件
b、把MR程序打包(jar),放到桌面
c、修改hadoop的源码 (把两个包复制到src下,会优先执行,jar包里的会被覆盖)
3 本地测试(windows),它不是hadoop本身有的,要借助于一个第三方的测试 debug工具
1、修改hadoop的源码
2、MR调用的代码需要改变:
a、src不能有服务器的hadoop配置文件
b、在调用是使用:
Configuration config = new Configuration();
config.set("fs.defaultFS", "hdfs://node7:8020"); (HDFS的入口地址)
1 Configuration conf = new Configuration() Configuration是在 recourseManager上
本地测试运行时若权限不够 则在入口处加 System.setProperty("HADOOP_USER_NAME", "root");
3 由于断电导致namenode都是stadby
执行hdfs haadmin -transitionToActive --forcemanual nn1 重新切换active
案例1 从1949年到现在,每一年的每一个月的气温最高的前3个时刻
要得到这个结果
1 需要排序 按气温排序
2 按年月一组一组展示
3 数据量大,一年一个reduce,多个reduce并发执行
4 多个reduce要自定义分区,按年来分区(默认partidition是按照键模reduce数量);
由于是按温度排序,所以要自定义排序(因为默认是key字典排序);
因为要按年月分组,所以要自定义分组(默认是按照键相同分组);
5 由4发现一个特点,这3个都是针对键的,按照现在的需求,在key里面应该有年有月有温度
所以推出 键应该是个封装类型
注意 在自定义输入key的时候,要放弃Comparable的compareTo方法,它是用于计算默认排序和分组的方法
map执行完后,首先执行的partition
1 自定义partition
2 自定义排序sort 同样的年下同样的月下根据温度降序排序的比较排序
3 自定义分组 分组也是比较
4 接下来再写reduce
注意 在分析的时候 数据包括哪些范围,是必须知道的,这里天气数据有3年的数据
案例2 社交系统中的好友推荐
什么是离线计算,离线计算就是在你登录后已经计算好了,例如 登录时你的推荐好友已经放到库里面了,直接取就行
需求分析
发现 好友的好友就是推荐好友,出现次数越多就越值得推荐
1 找出一个用户的所有的fof
2 去掉是直接好友的fof 例如 林志玲 小明 李刚 凤姐 郭美美 后4个人分别通过key林志玲而依次是fof
3 统计fof出现的次数
4 降序排