- 布隆过滤器虽然看起来是一个“算法结构”,但在实际 Web 应用场景中用途非常广泛,尤其在 提升性能、节省资源、防御攻击 等方面非常有用。
缓存穿透保护(常见于 Redis)
📌 问题:
- 用户频繁请求一些数据库中根本不存在的资源,导致每次都要访问数据库,绕过缓存,造成数据库压力
✅ 用法:
- 在访问缓存前先用布隆过滤器判断 key 是否可能存在:
if !bloomFilter.MightContain(key) {
return "Not Found" // 直接拒绝
}
value := redis.Get(key)
if value == nil {
value = db.Query(key)
if value != nil {
redis.Set(key, value)
}
}
✅ 好处:
- 拦截大量无效请求
- 缓解缓存穿透问题
- 提升整体系统抗压能力
防止重复提交 / 重复注册
📌 场景:
- 表单重复提交
- 用户频繁尝试用同一个邮箱注册
✅ 用法:
- 用布隆过滤器预判该数据是否已存在:
if bloomFilter.MightContain(email) {
return "Email already used or likely used"
}
✅ 优点:
- 在接口层拦截重复操作
- 避免数据库压力
用户黑名单拦截
📌 场景:
- 某些 IP 或 token 被封禁,需要快速判断是否命中黑名单。
✅ 用法:
- 系统启动时将黑名单加载进布隆过滤器:
if bloomFilter.MightContain(userIP) {
return "Access Denied"
}
✅ 优点:
- 快速拒绝访问,无需查数据库
- 支持大规模用户数据
短链接服务去重 / 防止碰撞
📌 场景:
- 在生成短链接时,需要确保新的 key 没被使用过。
✅ 用法:
- 生成新 key 前,用布隆过滤器判断是否可能存在
if bloomFilter.MightContain(newShortCode) {
regenerate()
}
搜索引擎爬虫去重(页面URL)
📌 场景:
- 需要避免爬虫反复访问同一页面。
✅ 用法:
- 每次爬虫访问新 URL 之前,用布隆过滤器做判断:
if !bloomFilter.MightContain(url) {
bloomFilter.Add(url)
crawl(url)
}
用 Go + Redis 快速实现布隆过滤器保护缓存
- 在实际生产中,通常布隆过滤器会用 Redis、Go、Python 或 C 实现,还可以和 Golang 的 Web 框架(如 Gin)结合:
示例(伪代码结构):
func GetUserProfile(c *gin.Context) {
userID := c.Query("id")
// 快速拦截非法 ID
if !bloomFilter.MightContain(userID) {
c.JSON(404, gin.H{"msg": "user not found"})
return
}
// 然后再查缓存 / DB
data := redis.Get("user:" + userID)
if data == nil {
data = db.QueryUser(userID)
redis.Set("user:"+userID, data)
}
c.JSON(200, data)
}