去重的五种方法

很无奈 由于电脑炸了 谷歌也重装了 所以上一篇未写完的博客大部分心血都没了。

这里是我总结的关于去重的五种办法 希望对各位有帮助

在这里 统一 以 var arr = [1,1,1,3,2,1,2,4];为例
具体使用已经封装了方法 可以调用

方法一

双重for循环去重
原理 两两比较如果相等的话就删除第二个
例如: 1 1 1 3 2 1 2 4
先让第一个1 即arr[0]与后面的一个个比较 如果后面的值等于arr[0] 删除后面的值
第一次结束后的结果是 1 3 2 2 4 删除了后面所有的1
同理 第二次 第三会删除与自己相同的元素

详细介绍 看代码注释
function noRepeat1(arr){
        // 第一层for用来控制循环的次数
        for(var i=0; i<arr.length; i++){
            //第二层for 用于控制与第一层比较的元素
            for(var j=i+1; j<arr.length; j++){
                //如果相等
                if(arr[i] == arr[j]){
                    //删除后面的 即第 j个位置上的元素  删除个数 1 个
                    arr.splice(j,1);
                    // j--很关键的一步  如果删除 程序就会出错 
                    //j--的原因是 每次使用splice删除元素时 返回的是一个新的数组 
                    // 这意味这数组下次遍历是 比较市跳过了一个元素
                    /*
                        例如: 第一次删除后 返回的是 1 1 3 2 1 2 4
                     *  但是第二次遍历是 j的值为2  arr[2] = 3
                     *  相当于跳过一个元素 因此要 j--
                     * */
                    j--;

                }

            }
        }

        return arr;
    }

方法二

单层for循环

原理和方法一相似

function norepeat(arr){
                arr.sort();
                //先排序让大概相同的在一个位置,这里为什么说是大概相同 是因为sort排序是把元素当字符串排序的 它和可能排成 1 1 10 11 2 20 3 ... 不是我们想要的从小到大
                for(var i = 0; i < arr.length-1;i++){
        //还是两两比较 一样删除后面的
                    if(arr[i]==arr[i+1]){
                        arr.splice(i,1);
                        //i-- 和j--同理
                        i--;
                    }
                }
                return arr;
            }

方法三

原理:用一个空数组去存首次 出现的元素
利用 indexOf 属性 indexOf是返回某个指定的字符在字符串中出现的位置,如果没有就会返回-1
因此我们可以很好的利用这个属性 当返回的是 -1时 就让其存入数组

function noRepeat2(arr){
        var newArr = [];
        for(var i = 0; i < arr.length; i++){
            if(newArr.indexOf(arr[i]) == -1){
                        newArr.push(arr[i]);
                }
        }
        return newArr;
    }

方法四:

原理:利用对象的思想 如果对象里没有这个属性的话就会返回undefined
利用这个原理当返回的是undefined时 让其放入数组 然后在给这个属性赋值

function norepeat3(arr) {
        var obj = {};
        var newArr = [];
        for(var i = 0; i < arr.length; i++) {
            if(obj[arr[i]] == undefined) {
                newArr.push(arr[i]);
                obj[arr[i]] = 1;
            }
        }
        return newArr;
    }

方法五

原理:循环比较如果相等的让后面的元素值为0 最后在输出的时候删除为0的 这个前提是你的数据里不能有0 但是凡事可以变通你可以设置任何值替代这个0 这个方法是我当时想到实现的所以没有进行很好的优化

var newArr = [];
    //控制外循环
    for(var i=0; i<arr.length-1;i++){
        //内存循环 只比较后面的
        for(j=i+1;j<arr.length;j++){
            //如果相等就让其值等于0
            if(arr[i]==arr[j]){
                arr[j]=0;
            }
        }
        //去除值为0的
        if(arr[i]==0){
            continue;
        }else{
            //放入新的数组
            newArr.push(arr[i]);
        }
    }
<think>我们之前讨论了数据库存储结构(表空间、段、区、数据块等),现在用户转向数据技术。用户引用了四篇文献,但请注意这些引用是站内引用,可能来自之前的对话或知识库。根据用户当前问题,他想了解数据的几种方法,特别是在数据处理和数据库操作中常见的技术。用户问题:"我想了解的几种方法,可能用于数据处理或数据库操作请问数据方法数据库算法常见技术"根据引用内容:引用[1]:数据库中的数据,删除复数据的过程,提高数据库性能和质量。引用[2]:数据的核心概念:相似性度量(欧氏距离、余弦相似度等)、算法(基于哈希表、基于聚类等)、优化(数据预处理、索引等)。引用[3]:利用Redis进行数据,使用Redis和hash算法(如用Redis的集合存储已处理的URL)。引用[4]:数据仓库,提到排序算法和外排序(当数据大于内存时)。因此,我们需要围绕这些点展开,点介绍数据库和数据处理中常用的方法,包括算法和优化技术。我将从以下几个方面组织回答:1.精确(适用于完全相同的复数据)2.相似(适用于相似但不完全相同的数据,如文本相似、图像相似)3.分布式环境下(如使用Redis)4.大数据场景下的优化(如外排序)同时,注意用户可能的应用场景:数据库操作(SQL)和数据处理(编程实现)。结构:一、精确a.数据库SQL(DISTINCT,GROUPBY)b.哈希表法(编程实现)c.排序法(先排序后)二、相似(模糊)a.基于相似性度量的方法(如余弦相似度、Jaccard相似度)b.基于局部敏感哈希(LSH)c.基于聚类的(如K-means)三、分布式a.使用Redis集合(存储已出现的数据标识)b.布隆过滤器(BloomFilter)四、大数据优化a.外排序(处理超出内存的数据)b.索引优化(加速查询)c.并行处理(分片)最后,给出相关问题。注意:在介绍方法时,尽量结合实例(如SQL语句、Python代码片段)和适用场景。</think>### 数据方法详解 数据是数据处理的核心技术,根据应用场景可分为**精确**和**相似**两类。以下是主流方法的技术实现与优化策略: --- #### 一、精确(完全匹配) 1. **数据库原生方法** ```sql -- DISTINCT关键字 SELECT DISTINCT name FROM users; -- GROUP BY聚合 SELECT name, COUNT(*) FROM sales GROUP BY product_id HAVING COUNT(*) > 1; ``` **适用场景**:结构化数据快速[^1] 2. **哈希表法** ```python def exact_dedupe(data_list): seen = set() unique_data = [] for item in data_list: item_hash = hash(item) # 或使用MD5/SHA1 if item_hash not in seen: seen.add(item_hash) unique_data.append(item) return unique_data ``` **时间复杂度**:$O(n)$ **内存优化**:布隆过滤器(Bloom Filter)降低内存占用[^3] --- #### 二、相似(模糊匹配) 1. **局部敏感哈希(LSH)** - 将相似数据映射到相同桶中 - **实现流程**: ```mermaid graph LR 原始数据-->特征向量 特征向量-->LSH投影 投影值-->哈希桶 哈希桶-->桶内 ``` 2. **文本相似度算法** | 算法 | 原理 | 适用场景 | |------|------|----------| | Jaccard相似度 | $J(A,B) = \frac{|A \cap B|}{|A \cup B|}$ | 短文本/集合数据 | | 余弦相似度 | $\cos \theta = \frac{\vec{a} \cdot \vec{b}}{\|\vec{a}\| \|\vec{b}\|}$ | 文档/向量化数据 | | MinHash | 近似计算Jaccard相似度 | 海量数据[^2] | 3. **聚类** ```python from sklearn.cluster import DBSCAN from sklearn.feature_extraction.text import TfidfVectorizer def cluster_dedupe(texts): vectorizer = TfidfVectorizer() X = vectorizer.fit_transform(texts) clusters = DBSCAN(eps=0.5).fit(X) return {cluster_id: texts[indices] for cluster_id, indices in clusters.items()} ``` --- #### 三、大数据优化技术 1. **分治策略** - 使用MapReduce实现分布式: ```java // Mapper输出<Key, Value> map(key, value) { emit(value, null); // Value作为Key } // Reducer自动 reduce(key, values) { emit(key); } ``` 2. **外排序** **步骤**: 1. 数据分块载入内存 2. 每块内部排序 3. 归并排序合并块 4. 合并时跳过复值[^4] **适用场景**:数据量 > 内存容量 3. **增量** - 使用Redis存储已处理数据标识: ```python import redis r = redis.Redis() def is_duplicate(item): item_hash = hashlib.sha256(item.encode()).hexdigest() if r.sismember("processed_items", item_hash): return True r.sadd("processed_items", item_hash) return False ``` --- #### 四、方法对比与选型 | 方法 | 精度 | 速度 | 内存消耗 | 适用场景 | |------|------|------|----------|----------| | 哈希表 | 100% | 快 | 高 | 小数据集 | | 布隆过滤器 | 99.9% | 极快 | 极低 | URL[^3] | | LSH | 近似 | 中 | 中 | 相似图片/文档 | | 外排序 | 100% | 慢 | 低 | 超大数据集 | --- #### 五、最佳实践建议 1. **结构化数据**:优先使用数据库`DISTINCT`/`GROUP BY` 2. **流式数据**:Redis布隆过滤器 + 定时持久化 3. **非结构化数据**: - 文本:MinHash + LSH - 图像:感知哈希(pHash) 4. **海量数据**:分治策略 + 分布式计算框架(Spark/Flink) > 注:实际应用中常组合多种方法,如先用哈希快速过滤完全复项,再用相似算法处理模糊复[^2]。 --- ### 相关问题 1. 布隆过滤器的误判率如何计算?如何降低误判? 2. MinHash和SimHash在文本中的性能差异是什么? 3. 如何处理高维向量数据的问题? 4. 在分布式环境下如何保证操作的幂等性? 5. 数据与数据压缩技术如何结合使用?
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值