网络爬虫二三事儿

目录(?)[+]

一、网络爬虫简介

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

二、网络爬虫分类

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:

  • 深层网络爬虫(Deep Web Crawler)
  • 聚焦网络爬虫(Focused Web Crawler)
  • 增量式网络爬虫(Incremental Web Crawler)
  • 通用网络爬虫(General Purpose Web Crawler)

在实际的网络爬虫系统中,通常是几种爬虫技术相结合实现的。

三、聚焦网络爬虫

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题: 
(1)对抓取目标的描述或定义; 
(2)对网页或数据的分析与过滤; 
(3)对URL的搜索策略。

四、网络爬虫示例

在本部分中,演示简单的网络爬虫过程,分别爬取本地和网页中“邮箱地址”信息,其中通过getMails()爬取本地邮箱地址,通过getMailsByWeb()爬取网页邮箱地址。

import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class InfoSpider {
    public static void main(String[] args) throws IOException {

        List list = getMailsByWeb();

        // 创建迭代器对象
        Iterator it = list.iterator();
        while (it.hasNext()) {
            String mail = (String) it.next();
            System.out.println(mail);
        }
    }

    /**
     * 爬取网络邮箱地址
     */
    public static List<String> getMailsByWeb() throws IOException {

        // 创建URL对象
        URL url = new URL("http://blog.csdn.net/qq_35246620/article/details/");

        // 通过BufferedReader读取网页数据
        BufferedReader bufIn = new BufferedReader(new InputStreamReader(url.openStream()));

        // 对读取的数据进行规制的匹配,从中获取符合规制的数据
        String mail_regex = "\\w+@\\w+(\\.\\w+)+";

        // 创建list集合存储数据
        ArrayList list = new ArrayList();

        // 将正则表达式封装成对象
        Pattern p = Pattern.compile(mail_regex);

        String line = null;
        while ((line = bufIn.readLine()) != null) {
            Matcher m = p.matcher(line);
            while (m.find()) {
                list.add(m.group());
            }
        }
        return list;
    }

    /**
     * 爬取本地邮箱地址
     */
    public static List<String> getMails() throws IOException {

        // 读取源文件
        BufferedReader bufr = new BufferedReader(new FileReader("d:\\mail.html"));

        // 对读取的数据进行规制的匹配,从中获取符合规制的数据
        String mail_regex = "\\w+@\\w+(\\.\\w+)+";

        // 创建list集合存储数据
        ArrayList list = new ArrayList();

        // 将正则表达式封装成对象
        Pattern p = Pattern.compile(mail_regex);

        String line = null;
        while ((line = bufr.readLine()) != null) {
            Matcher m = p.matcher(line);
            while (m.find()) {
                // 将符合规制的数据存储到集合中
                list.add(m.group());
            }
        }
        return list;
    }
}
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
系统根据B/S,即所谓的电脑浏览器/网络服务器方式,运用Java技术性,挑选MySQL作为后台系统。系统主要包含对客服聊天管理、字典表管理、公告信息管理、金融工具管理、金融工具收藏管理、金融工具银行卡管理、借款管理、理财产品管理、理财产品收藏管理、理财产品银行卡管理、理财银行卡信息管理、银行卡管理、存款管理、银行卡记录管理、取款管理、转账管理、用户管理、员工管理等功能模块。 文中重点介绍了银行管理的专业技术发展背景和发展状况,随后遵照软件传统式研发流程,最先挑选适用思维和语言软件开发平台,依据需求分析报告模块和设计数据库结构,再根据系统功能模块的设计制作系统功能模块图、流程表和E-R图。随后设计架构以及编写代码,并实现系统能模块。最终基本完成系统检测和功能测试。结果显示,该系统能够实现所需要的作用,工作状态没有明显缺陷。 系统登录功能是程序必不可少的功能,在登录页面必填的数据有两项,一项就是账号,另一项数据就是密码,当管理员正确填写并提交这二者数据之后,管理员就可以进入系统后台功能操作区。进入银行卡列表,管理员可以进行查看列表、模糊搜索以及相关维护等操作。用户进入系统可以查看公告和模糊搜索公告信息、也可以进行公告维护操作。理财产品管理页面,管理员可以进行查看列表、模糊搜索以及相关维护等操作。产品类型管理页面,此页面提供给管理员的功能有:新增产品类型,修改产品类型,删除产品类型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值