- 博客(8)
- 资源 (22)
- 问答 (1)
- 收藏
- 关注
转载 使用BloomFilter布隆过滤器解决缓存击穿、垃圾邮件识别、集合判重
Bloom Filter是一个占用空间很小、效率很高的随机数据结构,它由一个bit数组和一组Hash算法构成。可用于判断一个元素是否在一个集合中,查询效率很高(1-N,最优能逼近于1)。在很多场景下,我们都需要一个能迅速判断一个元素是否在一个集合中。譬如:网页爬虫对URL的去重,避免爬取相同的URL地址;反垃圾邮件,从数十亿个垃圾邮件列表中判断某邮箱是否垃圾邮箱(同理,垃圾短信);...
2018-11-22 00:12:44 310
转载 BloomFilter布隆过滤器使用
从上一篇可以得知,BloomFilter的关键在于hash算法的设定和bit数组的大小确定,通过权衡得到一个错误概率可以接受的结果。算法比较复杂,也不是我们研究的范畴,我们直接使用已有的实现。google的guava包中提供了BloomFilter类,我们直接使用它来进行一下简单的测试。测试分两步:一 我们往过滤器里放一百万个数,然后去验证这一百万个数是否能通过过滤器,目的是校验是坏...
2018-11-22 00:07:26 144 1
转载 BloomFilter——大规模数据处理利器
Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例 为了说明Bloom Filter存在的重要意义,举一个实例: 假设要你写一个网络蜘蛛(web crawler)。由于网络间的链接错综复杂,蜘蛛在网络间爬行很可能会形成“环”。为了避免形成“环...
2018-11-22 00:04:29 320
转载 NIO Buffer(缓冲区)之基础
缓冲区(Buffer)就是在内存中预留指定字节数的存储空间用来对输入/输出(I/O)的数据作临时存储,这部分预留的内存空间就叫做缓冲区;在Java NIO中,缓冲区的作用也是用来临时存储数据,可以理解为是I/O操作中数据的中转站。缓冲区直接为通道(Channel)服务,写入数据到通道或从通道读取数据,这样的操利用缓冲区数据来传递就可以达到对数据高效处理的目的。在NIO中主要有八种缓冲区类(其中Ma...
2018-11-11 22:32:59 251
原创 解析NIO中Buffer的position和limit关系
public class TestNio { public static void main(String[] args) throws Exception { FileInputStream file = new FileInputStream("src/nio_test_value.txt"); FileChannel channel = file....
2018-11-11 12:31:49 1232
原创 Mybatis使用注解批量写入并返回id
demo:@Insert({ "<script>", "insert into table_name(column1, column2, column3) values ", "<foreach collection='list' item='item' index='index' separator=','>", "(#{item.field1}, #{it...
2018-11-07 21:13:58 1875
转载 Mybatis自定义DataSource使用druid
一、mybatis配置文件<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"><configura
2018-11-04 23:47:54 9001 1
转载 使用Maven插件整合protocol buffer
本来自己在网上找如何使protocol buffer在IDE(我用的是IDEA)上使用的,结果搜索出来的都不尽人意,因为都太粗略了,没有重点的去阐述,所以最后还是决定自己搜索相关的Maven插件,再慢慢地摸索,费了我好多的时间啊(本人小白),现在把过程写出来好给自己和有需要的人看吧。<build> ... <plugins> ...
2018-11-01 00:02:10 405
elasticsearch2.3.3中离线安装的插件
2017-02-28
azkaban2.5 配置 jar包完整版
2015-07-10
JSP 书目检索系统
2012-01-05
elasticsearch 过滤器使用问题求大神
2015-04-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人