java实现网络爬虫
文章平均质量分 77
xxniuren
这个作者很懒,什么都没留下…
展开
-
java实现网络爬虫之链接初筛选策略
java实现网络爬虫之链接初筛选策略Web链接信息虽然很多,但是仔细分析其中结构,会发现其存在一定的规律性,为了对爬虫链接进行初步筛选,需要对链接进行分析。URL的组成为:http://:/?;host表示的是主机的名字(IP或域名),是端口号,表示是站内结构; 对Web结构进行分析: 页面之间的链接可以分为五种类型: Downwar原创 2016-08-31 22:33:27 · 2000 阅读 · 0 评论 -
网页爬虫之布隆滤波原理及java实现
前续:网页上已经有很多布隆过滤器很全的资料了,由于博主最近在做网页爬虫,遇到url防重问题,所以认真分析了布隆滤波器原理,也参考了相关博文。旨在给出不同人对其不同的理解,好给大家更全面的参考。1、布隆过滤器原理布隆过滤器=位图+哈希。一个空的布隆过滤器是一个m位的位图,所以位值开始均为0,定义k个不同的符合均匀随机分布的哈希函数,每个函数把集合元素映射到位图m位中的某一位。插入时,先把这个原创 2016-08-04 21:39:29 · 831 阅读 · 0 评论