基于hadoop搜索引擎实践——网页爬取(二)

本文介绍了基于Hadoop的搜索引擎实践,主要讨论网页爬取的深度优先策略。通过PHP和PHPCrawl库,实现了从指定网站的bbs论坛爬取帖子的流程,包括设置爬取规则、处理内容及存储为JSON格式。最后,概述了网页信息的提取与存储,以及相关代码资源链接。
摘要由CSDN通过智能技术生成
基于hadoop搜索引擎——网页爬取

本系统抓取的是某网站的bbs论坛,具体情况可以根据自己的需求选择。
1.爬取思路
    爬取策略是深度优先爬取。算法思想如下:
    从网站主页开始,执行如下步骤:
    (1)选择一个尚未爬取的频道(比如有社会,人文,娱乐);如果所有频道都已经爬完,算法结束
    (2)在已选择的频道中,选择一个尚未爬取的板块(比如有八卦娱乐,情感杂谈等);如果本频道中所有版块都爬取完,返回步骤1;
    (3)在已选择的板块中,一次爬取所有的帖子,知道爬完本板块中的所有帖子;
    (4)返回步骤2,继续深度优先爬取。
简而言之,一次查看每个频道,对每个频道则是逐个爬取其中的每个板块,对每个板块,则是顺序爬取其中的所有帖子;爬完一个板块中所有的帖子之后再爬取下一个板块。
2.爬取实现
    网页爬取的实现主要使用的PHP网页爬取,借助了PHPCrawl,具体使用可以去网上搜索教程,下面给出一个简单的实例:
   
<?php 
// It may take a whils to crawl a site ...
set_time_limit(10000);
// Inculde the phpcrawl-mainclass
include("libs/PHPCrawler.clas
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值