布隆过滤器的应用_bloomfilter.mightcontain-CSDN博客

本文链接：https://blog.csdn.net/qq_39647045/article/details/147411143

布隆过滤器虽然看起来是一个“算法结构”，但在实际 Web 应用场景中用途非常广泛，尤其在提升性能、节省资源、防御攻击等方面非常有用。

缓存穿透保护（常见于 Redis）

📌 问题：

用户频繁请求一些数据库中根本不存在的资源，导致每次都要访问数据库，绕过缓存，造成数据库压力

✅ 用法：

在访问缓存前先用布隆过滤器判断 key 是否可能存在：

if !bloomFilter.MightContain(key) {
    return "Not Found" // 直接拒绝
}
value := redis.Get(key)
if value == nil {
    value = db.Query(key)
    if value != nil {
        redis.Set(key, value)
    }
}

✅ 好处：

拦截大量无效请求
缓解缓存穿透问题
提升整体系统抗压能力

防止重复提交 / 重复注册

📌 场景：

表单重复提交
用户频繁尝试用同一个邮箱注册

✅ 用法：

用布隆过滤器预判该数据是否已存在：

if bloomFilter.MightContain(email) {
    return "Email already used or likely used"
}

✅ 优点：

在接口层拦截重复操作
避免数据库压力

用户黑名单拦截

📌 场景：

某些 IP 或 token 被封禁，需要快速判断是否命中黑名单。

✅ 用法：

系统启动时将黑名单加载进布隆过滤器：

if bloomFilter.MightContain(userIP) {
    return "Access Denied"
}

✅ 优点：

快速拒绝访问，无需查数据库
支持大规模用户数据

短链接服务去重 / 防止碰撞

📌 场景：

在生成短链接时，需要确保新的 key 没被使用过。

✅ 用法：

生成新 key 前，用布隆过滤器判断是否可能存在

if bloomFilter.MightContain(newShortCode) {
    regenerate()
}

搜索引擎爬虫去重（页面URL）

📌 场景：

需要避免爬虫反复访问同一页面。

✅ 用法：

每次爬虫访问新 URL 之前，用布隆过滤器做判断：

if !bloomFilter.MightContain(url) {
    bloomFilter.Add(url)
    crawl(url)
}

用 Go + Redis 快速实现布隆过滤器保护缓存

在实际生产中，通常布隆过滤器会用 Redis、Go、Python 或 C 实现，还可以和 Golang 的 Web 框架（如 Gin）结合：

示例（伪代码结构）：

func GetUserProfile(c *gin.Context) {
    userID := c.Query("id")

    // 快速拦截非法 ID
    if !bloomFilter.MightContain(userID) {
        c.JSON(404, gin.H{"msg": "user not found"})
        return
    }

    // 然后再查缓存 / DB
    data := redis.Get("user:" + userID)
    if data == nil {
        data = db.QueryUser(userID)
        redis.Set("user:"+userID, data)
    }

    c.JSON(200, data)
}