// 简单爬虫算法伪代码
// 极品外公 2010.12.28
// qq:409242642
void run()
{
hashtable http_table; // 哈希表
queue txt_queue; // 队列
if ( download_http(url, txt) ) // 下载网页
{
get_keyword(txt, keyword); // 提取关键字
http_table.append(keyword, url); // 加入到索引表
txt_queue.enqueue(txt); // 入队
while( !txt_queue.is_empty() ) // 队列不为空
{
itxt = txt_queue.dequeue(); // 出队
foreach( iurl in itxt) // 遍历所有url
{
if ( download_http(iurl, iitxt) )
{
get_keyword(iitxt, ikeyword);
http_table.append(ikeyword, iurl);
txt_queue.enqueue(iitxt); // 入队
}
}
}
}
}
简单爬虫算法伪代码
最新推荐文章于 2024-04-04 10:36:22 发布