Hadoop学习之路（一）数据处理理论基础和逻辑思维

最新推荐文章于 2023-07-06 11:00:00 发布

狂奔的乌牛

最新推荐文章于 2023-07-06 11:00:00 发布

阅读量308

点赞数

分类专栏： Hadoop 大数据文章标签： hadoop

本文链接：https://blog.csdn.net/u014709812/article/details/114577933

版权

大数据同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

Hadoop

5 篇文章 0 订阅

订阅专栏

一、统计出现最多的IP次数

1、描述

统计出当前这个一行一个IP的文件中，到底哪个IP出现的次数最多

2、解决思路

//必须要能读取这个内容  

        BufferedReader br = new BuffedReader(new FileInputStream(new File("c:/big.txt")));
          // 每次读取一行
        String line = null;
        while( (line=br.readLine()) != null){
            // 处理这读取到的一行内容的代码
        }

        //最简单的一种思路：  初始化一个hashmap

        //hashmap中存储的键值对的  key ： IP      value : 次数

        int count = 0;  // 就是用来进行存储当前出现次数最多的那个IP的次数
        String maxip = null;
        Set<String> ips = hashmap.keySet();
        for(String ip :  ips){
            int ipcount = hashmap.get(ip)
            if(ipcount > count){
                count = ipcount
                maxip = ip;
            }
        }
        System.out.println(maxip + " : " +count);

3、问题难点

1、当读取的文件的大小超过内存的大小时，以上的解决方案是不可行的。

2、假如说你的内存足够大，能装下这个文件中的所有ip，整个任务的执行效率会非常低，消耗的时间会非常的长。

1GB – 5分

1TB — 1024 * 5 分

3、最终整个任务就使用一台机器，那么最终整个任务执行完成所消耗的时间是和数据的大小成正比。提升服务器的执行性能来提高数据的处理速度。

当前这一台机器的执行性能：　　　　 5分钟/GB

提升服务器的执行性能： CPU ：i3 —> i7 1分钟/GB

在最开始的服务器领域：提升服务器对外提供服务的效率手段就是纵向提升服务器性能。理想是丰满的，现实是骨感的，但是服务器性能提升有瓶颈。

摩尔定律：每隔18-24个月，服务器的性能提升一倍。

如果说数据的增长是每隔18-24个月就增长一倍,工作量增加了一倍。工作效率也增加了一倍，那么最终完成同一个任务所花费的时间是一样的。

但是数据的增长速度是远远超过服务器性能的提升。在数据不断增长的情况下，单位时间内，服务器所需要处理的数据量是越来越大。

假如：

服务器的性能提升速率和数据的增长速率一样：在18-24个月
10GB — 性能： 1分钟/GB — 10分钟
20GB — 性能： 1分钟/2GB — 10分钟

假如：

服务器的性能提升速率和数据的增长速率不一样：在18-24个月
10GB — 性能： 1分钟/GB — 10分钟
100GB — 性能： 1分钟/2GB — 50分钟

最终的结论：靠纵向提升服务器性能的手段在理论上有瓶颈的。

最终解决方案：纵向不可取，所以采取横向扩展。

所谓的横向扩展：就是增加服务器的数量。

一个庞大的复杂任务就应该平均分配给所有的服务器做处理

10GB 一台服务器 10分钟

100GB 一台服务器 100分钟

100GB 10台服务器 10分钟

10000GB 1000台 10分钟

在理论上有上限么？？没有

两种情况下：
1、在数据量比较小的情况下，单台服务器就可以再用户可接受的时限范围内完成任务。
2、当数据量变大时，如果用户也想在可接受的时限范围内完成任务，那么可行的方案就是进行服务器的横向扩展。
核心思想：大事化小分而治之
终极解决方案：
1、先把文件切碎成很多的小文件。
2、每一个服务器节点去处理一个小文件。
3、再把所有服务器的处理结果汇总到一起。
4、再把所有的数据合并到一起求出出现次数最多的那个ip。

只要是通过网络传输数据，就一定存在丢失数据的可能。

二、找出两大文件中URL交集

1、描述

在两个庞大文件中，文件也都是存储的URL地址（每行一个），比如文件名叫做file1和file2, 找出这两个文件中的交集（相同的URL）？

以上问题等同于SQL：select url from file1 a join file2 b on a.url = b.url

2、问题分析

概念：出现在在file1中的元素也出现在file2中。这些元素的集合就是交集

需求：求2个文件的交集

文件中的元素：URL

3、解决方案

1.当2个文件都比较小的时候

步骤：

1.　编写一个程序可以去读文件的内容，把文件中的所有元素都放置在一个set1中

编写一个流处理取读取文件内容，逐行读取，每次读取到的一行放入set1中

2.　运行相同的程序处理另外一个文件的内容，把文件中的所有元素都放置在一个set2中

3.　先遍历一个集合，每次遍历出来的元素都去另外一个集合中判断存在不存在。如果存在，就是共同元素，这个共同元素就存储在某个集合中resultSet；如果不存在，就不是共同元素。

4.　结果集：集合resultSet

2.当2个文件都比较大的时候

第一种思路：采取跟第一个题目一样的大事化小的策略

第二种思路：改良第一种思路。避免第一种思路中的很多无效匹配　a1 * a2

必须做到合理的数据分区，数据分区的两种最基本的思路：

1.先排序，然后分段==分区

2.hash散列　　–　　求hash值，然后利用hash值求和分区个数的余数，如果余数相同，就证明这些元素在同一个分区中

改良了实现思路之后，可以让原来应该执行16个小任务的大任务。只需要执行4个小任务即可。

终极解决方案：
1.先指定一个分区策略：hash散列
2.预估预估一下数据要被切分成多少个块，一定要保证两个文件切分出来的小文件个数成倍数
3.根据hash散列的策略，对两份文件分别进行操作
4.根据原来指定的策略，寻找对应的两个大文件中的对应小文件进行求交集操作
5.所有的结果，根本就不用再进行去重了。直接进行拼接即可。

学到的东西：

整个大数据生态系统中的很多技术软件的底层处理数据的分区时，默认的策略都是hash散列。