hadoop_案例_1

执行程序的3中方式:
    
1、直接在服务器上,mapreduce的执行环境是yarn,要打成jar包,放到环境里
    使用命令的方式调用,执行过程也在服务器上

2、在本地直接调用,执行过程在服务器上
    a、首先在src下放置服务器上的hadoop配置文件
    b、把MR程序打包(jar),放到桌面
    c、修改hadoop的源码 (把两个包复制到src下,会优先执行,jar包里的会被覆盖)
    
3    本地测试(windows),它不是hadoop本身有的,要借助于一个第三方的测试 debug工具
    1、修改hadoop的源码
    2、MR调用的代码需要改变:
        a、src不能有服务器的hadoop配置文件
        b、在调用是使用:
            Configuration config = new  Configuration();
            config.set("fs.defaultFS", "hdfs://node7:8020"); (HDFS的入口地址)
    
1    Configuration conf = new Configuration() Configuration是在 recourseManager上

    本地测试运行时若权限不够 则在入口处加 System.setProperty("HADOOP_USER_NAME", "root");
    
3    由于断电导致namenode都是stadby
    执行hdfs haadmin -transitionToActive --forcemanual nn1  重新切换active
    
案例1   从1949年到现在,每一年的每一个月的气温最高的前3个时刻
    要得到这个结果
    1  需要排序 按气温排序
    2  按年月一组一组展示
    3  数据量大,一年一个reduce,多个reduce并发执行
    4  多个reduce要自定义分区,按年来分区(默认partidition是按照键模reduce数量);
        由于是按温度排序,所以要自定义排序(因为默认是key字典排序);
       因为要按年月分组,所以要自定义分组(默认是按照键相同分组);
    5  由4发现一个特点,这3个都是针对键的,按照现在的需求,在key里面应该有年有月有温度
       所以推出 键应该是个封装类型
       
    注意 在自定义输入key的时候,要放弃Comparable的compareTo方法,它是用于计算默认排序和分组的方法
    map执行完后,首先执行的partition
    1 自定义partition
    2 自定义排序sort 同样的年下同样的月下根据温度降序排序的比较排序
    3 自定义分组  分组也是比较
    4 接下来再写reduce
    
    注意 在分析的时候 数据包括哪些范围,是必须知道的,这里天气数据有3年的数据
    
案例2    社交系统中的好友推荐
        什么是离线计算,离线计算就是在你登录后已经计算好了,例如 登录时你的推荐好友已经放到库里面了,直接取就行
    需求分析
        发现 好友的好友就是推荐好友,出现次数越多就越值得推荐
        1  找出一个用户的所有的fof
        2  去掉是直接好友的fof 例如 林志玲       小明    李刚 凤姐 郭美美 后4个人分别通过key林志玲而依次是fof
        3  统计fof出现的次数
        4  降序排
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值