N个区间求交集

最新推荐文章于 2024-05-31 10:33:55 发布

kiss_kings

最新推荐文章于 2024-05-31 10:33:55 发布

阅读量3.4k

点赞数 2

分类专栏：算法 java 文章标签： java 求交集文章去重算法

本文链接：https://blog.csdn.net/kiss_kings/article/details/81281477

版权

java 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

算法

1 篇文章 0 订阅

订阅专栏

博主遇到一个问题，要对文章根据用户阅读记录进行去重，但用户阅读记录的文章ID最长可以达到300条，然后在数据库中使用NOT IN语句在查询时对文章进行去重，但是这样操作在记录比较长时，语句执行效率极其低下，

最终博主想到了一个优化策略，在redis中缓存用户阅读的文章ID区间(文章ID是递增方式存入数据库)取代之间对文章ID校验去重的方式进行去重，这时就涉及到对用户的阅读文章ID区间进行求交集的操作，具体求交集思路见代码：

import java.util.*;


public class Main {

    public static boolean union(Set<String> set) {
        /*求并集  每次将两个可并集的区间合并*/
        Iterator<String> it = set.iterator();
        while (it.hasNext()) {
            String old = it.next();
            String[] arr = old.split(",");
            Iterator<String> it2 = set.iterator();
            while (it2.hasNext()) {
                String newstr = it2.next();
                String[] arr2 = newstr.split(",");
                if (!(arr[0].equals(arr2[0]) && arr[1].equals(arr2[1]))) {
                    //标记是否被合并
                    boolean isRemove = false;
                    //是否两个区间有交集 思路：如果没交集 区间二一定在区间一两边
                    if ((Long.parseLong(arr2[1]) - Long.parseLong(arr[0])) > -1 && (Long.parseLong(arr2[0]) - Long.parseLong(arr[1])) < 1) {
                        //如果区间一的终点小于区间二的终点 将区间二的终点代替区间一的终点
                        if (Long.parseLong(arr[1]) < Long.parseLong(arr2[1])) {
                            arr[1] = arr2[1];
                            isRemove = true;
                        }
                        //如果区间一的起点大于区间二的起点 将区间二的起点代替区间一的起点
                        if (Long.parseLong(arr[0]) > Long.parseLong(arr2[0])) {
                            arr[0] = arr2[0];
                            isRemove = true;
                        }
                        set.remove(newstr);
                        if (isRemove) {
                            //如果区间一的值被改变 修改区间一
                            set.remove(old);
                            set.add(arr[0] + "," + arr[1]);
                        }
                        return true;
                    }
                }
            }
        }
        return false;
    }

    public static void main(String[] args) {
      /*测试运行效率*/
        Random random = new Random();
        Set<String> set = new HashSet<String>();
        for (int i = 0; i < 100000; i++) {
            String insStr = "";
            int num = random.nextInt(10000000);
            insStr = random.nextInt(num) + "," + num;
            set.add(insStr);
        }
        /*测试准确性*/
        set.add("0,15");
        set.add("8,15");
        set.add("6,7");
        set.add("100,150");
        set.add("12,85");
        set.add("4,10");
        set.add("5,16");

        System.out.println("0.0 " + new Date().getTime());
        while (union(set)) {
        }
        System.out.println("-.- " + new Date().getTime());
        Iterator<String> it = set.iterator();
        while (it.hasNext()) {
            System.out.println(it.next().toString());
        }
}

优化代码：后期博主需要获取最大值并对过小的值进行合并整合故而优化方法如下（该优化弃用）；

/**
     * 合并所有集合 并返回最大值
     * @param set
     * @param max
     * @return
     */
    public static Long union(Set<String> set ,Long max) {
        /*求并集  每次将两个可并集的区间合并*/
        Iterator<String> it = set.iterator();
        while (it.hasNext()) {
            String old = it.next();
            String[] arr = old.split(",");
            Iterator<String> it2 = set.iterator();
            if (Long.parseLong(arr[1]) > max) {
                max = Long.parseLong(arr[1]);
            }
            while (it2.hasNext()) {
                String newstr = it2.next();
                String[] arr2 = newstr.split(",");
                if (!(arr[0].equals(arr2[0]) && arr[1].equals(arr2[1]))) {
                    //标记是否被合并
                    boolean isRemove = false;
                    //是否两个区间有交集 思路：如果没交集 区间二一定在区间一两边
                    if ((Long.parseLong(arr2[1]) - Long.parseLong(arr[0])) > -1 && (Long.parseLong(arr2[0]) - Long.parseLong(arr[1])) < 1) {
                        //如果区间一的终点小于区间二的终点 将区间二的终点代替区间一的终点
                        if (Long.parseLong(arr[1]) < Long.parseLong(arr2[1])) {
                            arr[1] = arr2[1];
                            isRemove = true;
                        }
                        //如果区间一的起点大于区间二的起点 将区间二的起点代替区间一的起点
                        if (Long.parseLong(arr[0]) > Long.parseLong(arr2[0])) {
                            arr[0] = arr2[0];
                            isRemove = true;
                        }
                        set.remove(newstr);
                        if (isRemove) {
                            //如果区间一的值被改变 修改区间一
                            set.remove(old);
                            set.add(arr[0] + "," + arr[1]);
                        }
                        max = union(set , max);
                        return max;
                    }
                }
            }
        }
        return max;
    }

博主对上面的代码进行大数据（10W+区间）测试后，发现会出现堆栈错误，递归调用太多，线程池满了；

重新优化代码后耦合度增加但减少运算次数

import java.util.*;


public class Main {

    /**
     * 合并所有集合 并返回最大值
     *
     * @param set
     * @param max
     * @return
     */
    public static Long union(Set<String> set, Long max) {
        /*求并集  每次将两个可并集的区间合并*/
        Iterator<String> it = set.iterator();
        while (it.hasNext()) {
            String old = it.next();
            String[] arr = old.split(",");
            Iterator<String> it2 = set.iterator();
            if (Long.parseLong(arr[1]) > max) {
                max = Long.parseLong(arr[1]);
            }
            while (it2.hasNext()) {
                String newstr = it2.next();
                String[] arr2 = newstr.split(",");
                if (!(arr[0].equals(arr2[0]) && arr[1].equals(arr2[1]))) {
                    //标记是否被合并
                    boolean isRemove = false;
                    //是否两个区间有交集 思路：如果没交集 区间二一定在区间一两边
                    if ((Long.parseLong(arr2[1]) - Long.parseLong(arr[0])) > -1 && (Long.parseLong(arr2[0]) - Long.parseLong(arr[1])) < 1) {
                        //如果区间一的终点小于区间二的终点 将区间二的终点代替区间一的终点
                        if (Long.parseLong(arr[1]) < Long.parseLong(arr2[1])) {
                            arr[1] = arr2[1];
                            isRemove = true;
                        }
                        //如果区间一的起点大于区间二的起点 将区间二的起点代替区间一的起点
                        if (Long.parseLong(arr[0]) > Long.parseLong(arr2[0])) {
                            arr[0] = arr2[0];
                            isRemove = true;
                        }
                        set.remove(newstr);
                        if (isRemove) {
                            //如果区间一的值被改变 修改区间一
                            set.remove(old);
                            set.add(arr[0] + "," + arr[1]);
                        }
//                        max = union(set , max);
                        return max;
                    }
                }
            }
        }
        return -1L;
    }

    public static void removeSmall(Set<String> set) {
        Iterator<String> it = set.iterator();
        Long min = 0L;
        Long max = 0L;
        while (it.hasNext()) {

        }
    }

    public static void main(String[] args) {
        /*测试运行效率*/
        Random random = new Random();
        Set<String> set = new HashSet<String>();
        for (int i = 0; i < 100000; i++) {
            String insStr = "";
            int num = random.nextInt(10000000);
            insStr = random.nextInt(num) + "," + num;
            set.add(insStr);
        }
        /*测试准确性*/
        set.add("0,15");
        set.add("8,15");
        set.add("6,7");
        set.add("100,200");
        set.add("12,85");
        set.add("4,10");
        set.add("5,16");

        System.out.println("0.0 " + new Date().getTime());
        Long max = 0L;
        for(Long tempMax=max; (tempMax = union(set, max)) >= 0 ; )
        {
            max = tempMax;
        }
        System.out.println("MAX = " + max);
        System.out.println("-.- " + new Date().getTime());
        Iterator<String> it = set.iterator();
        while (it.hasNext()) {
            System.out.println(it.next().toString());
        }
    }
}

kiss_kings

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
N个区间求交集

博主遇到一个问题，要对文章根据用户阅读记录进行去重，但用户阅读记录的文章ID最长可以达到300条，然后在数据库中使用NOT IN语句在查询时对文章进行去重，但是这样操作在记录比较长时，语句执行效率极其低下，最终博主想到了一个优化策略，在redis中缓存用户阅读的文章ID区间(文章ID是递增方式存入数据库)取代之间对文章ID校验去重的方式进行去重，这时就涉及到对用...
复制链接

扫一扫

专栏目录