[爬虫] URL提取

原创 2005年05月04日 23:43:00

参考 论文: 一种可扩展的高效链接提取模型的实现与验证


作为一个爬虫,最基本的便是能够从各个页面中提取URL,这里介绍我实现的提取器。基于可扩展性,我首先实现了一个不针对任何元素的HTML元素提取,即可以提取所有的元素,并通过HOOK的模型,再根据具体需要实现不同的HOOK来获得针对性的信息。当然爬虫的HOOK便是获取URL。


HOOK的接口大致如下:

// [消息通知接口]
void begin_parser()
void begin_element()
void end_parser()
void end_element()

// [具体处理接口]
void get_element_name(...)
void get_attr_name(...)
void get_attr_value(...)


基础提取器的过程大致如下:

获得元素名  hook.get_element_name(...)
获得属性名  hook.get_attr_name(...)
获得属性值  hook.get_attr_value(...)
获得属性名  hook.get_attr_name(...)
获得属性值  hook.get_attr_value(...)
……
如此循环直到分析完页面。

 由于考虑了可扩展性,或多火或少的会对性能有些影响,比如我们要实现一个完全针对性的URL分析,则可以减少多次的元素,属性等的提取,此过程还有多次无意义的字符判断。因此我改变了 hook 的接口,把 get_element_name() 的返回值设置为 bool 值,这样提取器便可以通过hook的接口得到不同的hook程序对不同的元素信息的关心情况,做出适当的处理,在我的实现中,该函数返回true,表示关心该元素的情况,false反之,如果是不关心的话,提取器直接跳到下一个元素进行分析,这样无疑提高了分析器的性能,使得它同针对性的提取器性能差距缩小。还有上面的begin_parser() begin_element()等通知函数是为了让不同的hook能知道当前提取器的工作情况,以方便处理获得的数据信息。

 不过在页面分析前,有必要对页面数据进行一次预处理,比如爬虫时对脚本,注释的过滤,因此我在提取器中加入一个HTML过滤器,可根据不同需要来设置不同的过滤器,在本爬虫中,我派生一个过滤器 html_filter 用于把脚本和注释进行过滤。

我的爬虫中的URL提取器大致就是这样,下面是部分代码 :

加入这两个宏纯粹是为了代码紧凑些。一个用于判断是否分析到数据流的结尾,另一个加入多少有点SB,如果flag为真,返回ret_code。HOHO

#define return_if_end(rs)   do{ if(rs == rs_end_of_file) return rs_end_of_file;}while(0)
#define return_if(flag,ret_code)  do{ if(flag) return ret_code;}while(0)

const string cauc_html_parser::m_brank = "  ";

void    cauc_html_parser::set_stream(istream& is)
{
 this->istream_it = istream::_Iter(is);
}
bool    cauc_html_parser::handle_by_hook(Command cmd)
{
 if(!m_hook)
  return false;
 switch(cmd)
 {
 case cm_element_name:
  return m_hook->get_element_name(get_cur_word(1));
  break;
 case cm_attr_name:
  return m_hook->get_attr_name(get_cur_word(1));
  break;
 case cm_attr_value:
  {
   return m_hook->get_attr_value(get_cur_word(1));
  }
  break;
 case cm_text:
  return m_hook->get_text(get_cur_word(1));
  break;
 }
 return true;
}
cauc_html_parser::Result cauc_html_parser::ignored_brank()
{
 while(  m_brank.find(get_cur_letter()) != string::npos)
  return_if_end(advance());
 return rs_ok;
}
cauc_html_parser::Result  cauc_html_parser::advance()
{
 istream_it++;
 if(istream_it != istream_end)
 {
  m_cur_letter = *istream_it;
  m_curWord += *istream_it;
  return rs_ok;
 }
 return rs_end_of_file;
}
void    cauc_html_parser::set_hook(cauc_hook* hook,bool del)
{
 m_delete_hook = del;
 m_hook = hook;
}
cauc_html_parser::Result  cauc_html_parser::advance_to(const string& split)
{
 do
 {
  return_if_end(advance());
 }while(split.find(get_cur_letter()) == string::npos);
 return rs_ok;
}
bool  cauc_html_parser::is_quot()
{
 return is_oneof("'/"");
}
bool  cauc_html_parser::is_oneof(const string& flag)
{
 const string& lt = get_cur_letter();
 return flag.find(lt) != string::npos;
}
string&  cauc_html_parser::get_cur_word(size_t back_offset)
{
 if(back_offset && back_offset < m_curWord.length())
  m_curWord = m_curWord.substr(0,m_curWord.length() - back_offset);
 return m_curWord;
}
void  cauc_html_parser::begin_word()
{
 m_curWord = "";
 m_curWord += get_cur_letter();
}
string  cauc_html_parser::get_cur_letter()
{
 return m_cur_letter;
}
void cauc_html_parser::parser()
{
 /*
  * [通知hook程序开始分析网页]
  **/
 if(m_hook)
  m_hook->begin_parser();

 while(this->get_next() != rs_end_of_file)
 {
  this->get_text();
 }

 /*
  * [通知 hook 程序结束分析网页]
  **/
 if(m_hook)
  m_hook->end_parser();
}
cauc_html_parser::Result cauc_html_parser::get_next()
{
 /*
  * [通知 hook 程序 开始获取元素]
  **/

 if(m_hook)
  m_hook->begin_element();
 return_if_end(ignored_brank());
 /*
  * [获得元素名]
  **/
 if(! is_oneof("<") )
  return_if_end(advance_to("<"));  
 return_if_end(advance());
 return_if_end(ignored_brank()); 
 begin_word();
 return_if_end(advance_to(">"+m_brank));

 /*
  * [hook处理]
  **/
 return_if(!handle_by_hook(cm_element_name),rs_ok);
 return_if_end(ignored_brank());

 if(is_oneof(">"))
  return_if_end(advance());

 /*
  * [获得属性信息]
  **/
 do {
  return_if_end(get_attribute());
  return_if_end(ignored_brank());
 } while(!is_oneof(">"));

 /*
  * [通知 hook 程序 结束获取元素]
  **/
 if(m_hook)
  m_hook->end_element();
 return_if_end(advance());
 return rs_ok;
}
/*
 * [属性]
 **/
cauc_html_parser::Result cauc_html_parser::get_attribute()
{
 do {// [属性名]
 
  return_if_end(ignored_brank());
  return_if_end(get_attr_name());
 } while(!is_oneof("="));
 return_if(is_oneof(">"),rs_ok);  // [如果是'>'说明后面没有属性值]
 return_if_end(advance());   // [跳过'=']
 return_if_end(get_attr_value()); // [获得属性值]
 return_if_end(ignored_brank());  // [跳过空格]
 return rs_ok;
}
/*
 * [获取属性名]
 **/
cauc_html_parser::Result cauc_html_parser::get_attr_name()
{
 begin_word();
 return_if_end(advance_to(m_brank + ">="));
 /*
  * [hook处理]
  **/
 return_if(!handle_by_hook(cm_attr_name),rs_ok);
 return rs_ok;
}
/*
 * [获取属性值]
 **/
cauc_html_parser::Result cauc_html_parser::get_attr_value()
{
 return_if_end( ignored_brank() );
 
 if(is_oneof("'/""))
 {
  string quot = get_cur_letter();
  return_if_end( advance() );
  begin_word();
  if(!is_oneof("'/""))
  {
   return_if_end( advance_to(quot) );
  }
  /*
   * [hook处理]
   **/
  return_if(!handle_by_hook(cm_attr_value),rs_ok);
  return_if_end(advance());
 }
 else
 {
  begin_word() ;
  if(!is_oneof(">"))
   return_if_end( advance_to( m_brank + ">") );
  /*
   * [hook处理]
   **/
  return_if(!handle_by_hook(cm_attr_value),rs_ok);
 }
 return rs_ok;
}
/*
 * [获取正文]
 **/
cauc_html_parser::Result cauc_html_parser::get_text()
{
 begin_word() ;
 if(!is_oneof("<"))
  return_if_end( advance_to("<") );
 handle_by_hook(cm_text);
 return rs_ok;
}


 下面是 html_filter 的实现,实现过程没有回溯,因此数据流只要具有前向迭代器功能皆可。
不过有一点现在觉得浪费了很多的时间,就是先把数据流全部过滤后得到新的数据流再交给提取器处理,由于原先认为这样使结构比较清晰,不至于把提取器实现得太过于……(恶劣)。 但是最近由于调试时发现提取器花费时间挺长的,便重新考虑了一下,有了新的模型,当然是基于把过滤器象hook处理程序一样挂到基础的提取器中,减少遍历数据一次。 当然还没实现()。下次再更新……


//[ 5月5号 更新]

今天把提取器重新实现了一下,就是完成了之前的想发,对大于100K的页面提取速度提高将近一倍……:)。

其中过滤器接口是:

void  filter(istream::__Iter& start, const istream::_Iter& end, TypeBuffer& buffer);

实现要求: 如果从流中读取了字符,且不属于过滤范围,则把读取的字符按流中的顺序保存到 buffer 中。过滤后 start 迭代器的位置为紧接着过滤掉的最后一个位置。end 参数是用于标记过滤范围,一般而言是流的结束标记。即 istream::_Iter()默认的构造对象。

过滤器在提取器中在两个地方使用,一个是一开始分析页面时调用,一个是在 advance()中调用。

在更新的提取器中我暂时使用 std::deque<char> 作为缓冲,即保存那些被过滤器错误读取的字符,然后在advance() 函数中做相应的更改即可。(先判断缓冲中是否存在字符)

 还加入了一个辅助结构,用于处理消息通知,这里主要是 begin_parser ,begin_element...,他们一般在函数开始和函数结束的时候调用,但是由于函数中间有可能有多个 return ,因此会导致一些错误或者不匹配的通知。于是我想到了临时对象的特点,他会在生命周期结束时调用他的析构函数,这正好可以用来处理我的情况,于是该结构如下:
struct notify_helper
{
 enum notify_flag
 {
   nf_parser = 0,
   nf_element
 };
 notify_helper(hook*& hook,notify_flag flag)
 : m_hook(hook), m_flag(flag)
 {
   if(!m_hook)
      return;
   switch(m_flag)
   {
      case nf_parser:
 m_hook->begin_parser();  break;
      case nf_element:
 m_hook->begin_element(); break;
   }
 }
 ~notify_helper()
 {
    if(!m_hook)
      return;
   switch(m_flag)
   {
      case nf_parser:
 m_hook->end_parser();  break;
      case nf_element:
 m_hook->end_element(); break;
   }
 }
 notify_flag m_flag;
 hook*&      m_hook;
};

然后在函数开始的时候,比如开始分析的函数中,生成一个对象即可:
   {
      notify_helper helper(m_hook, notify_helper::nf_parser);
  ……
   }
这样不管函数中有多少个return 都无所谓,因为只要函数结束,该对象生命器结束,自动会调用析构函数。

待写...

(1)php爬虫---提取优酷动漫的url

今天第一次写php爬虫,感觉还可以。以前我一直都想用php做爬虫了。但是因为不会使用正则表达式,所以也就一直下不起手来。今天终于下定决心去学正则,所以做爬虫的热情又回来了。 首先,我是使用file_...

python爬虫之请求(url)构造 —— 寻找参数来源以及中文编码

1. 环境 系统:win7 python:3.6.1 IDE:pycharm 平台:scrapy 2. 目标 按照下图中的下拉列表,构造搜索链接: 在“All”类目下,搜索关键字“phone moun...

[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容

版本号:Python2.7.5,Python3改动较大,各位另寻教程。 所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。  类似于使用程序模拟IE浏览器的功能...

python爬虫:抓取乌云厂商url

目标: 乌云网是国内最大最权威的安全平台,所以乌云网的注册厂商都是业较有影响力的厂商,我们的最终目的是通过乌云网拿到所有厂商的url,即主站域名,随后调用subDomainsBrute能批量...

Scrapy爬虫教程之URL解析与递归爬取

http://www.icodelogic.com/?p=459 前面介绍了Scrapy如何实现一个最简单的爬虫,但是这个Demo里只是对一个页面进行了抓取。在实际应用中,爬虫一个重要功...
  • kopolwu
  • kopolwu
  • 2013年01月07日 11:57
  • 1208

实现客户给的URL接口,以爬虫的方式

一、Post方式public static String sendPost(String url, String param) throws RuntimeException { Strin...

指定URL的网络爬虫。。

package Spider; import org.apache.commons.httpclient.*; import org.apache.commons.httpclient.method...

Python爬虫爬取Html中的Url常用知识

近一段时间在学习如何使用Python进行网络爬虫,越来越觉得Python在处理爬虫问题是非常便捷的,那么接下来我就陆陆续续的将自己学习的爬虫知识分享给大家。 首先在进行实战前,我们需要了解几个常用的...

URL队列(爬虫队列)-Berkeley DB的使用示例(Java)

网络爬虫中URL队列即爬虫队列是较为关键的数据结构,对于数据量要求不大的爬虫,我们可以简单的使用Java类库中的内存数据结构,例如链表或者队列来实现URL队列,但是当我们面对数以亿计的链接时,内存数据...

python 网页爬虫(URL)

这是一篇课程总结。 课程来源: 慕课网 需要爬网页做成pdf方便打印。 Module 分成五个部分:网页下载器,网页解析器,网页信息的输出,,URL管理,主调度程序。 Python 3.5+,需要用到...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:[爬虫] URL提取
举报原因:
原因补充:

(最多只允许输入30个字)