snoopy与htmlsql实例(盗墓笔记采集)

snoopy与htmlsql实例(盗墓笔记采集)

http://www.lianglong.cq.cn/post/snoopyyuhtmlsqlshili-daomubijicaiji.html

发表于 梁龙13 November,2010 (0)评论

snoopy这个采集类库是个很好玩的东西,简单而且使用,一般的采集应付起来绰绰有余。
最近一个哥们要看盗墓笔记的全本TXT文档,让我帮他采集,想了下决定用snoopy和一个好玩的类库htmlsql来做,htmlsql第一次使用,感觉比较好玩,写SQL的感觉非常有趣,就是灵活性上不是很突出,但做这种小的采集足够了,可能是因为第一次使用这个类库,并不是很顺利,写了两个多钟头,才搞定这个采集,这里放出源码供大家下载吧,想玩玩的可以拿去参考下。
展示部分代码:

  1. <?php
  2. include_once("./snoopy.class.php");
  3. include_once("./htmlsql.class.php");
  4. require_once("./function.php");
  5. //防止页面超时
  6. set_time_limit(0);
  7. //生成文本文档名称
  8. $name="怒海潜沙";//自定义文件名(注意自己修改)
  9. $txt_name=$name.".txt";
  10. $zhangjie="nu-hai-qian-sha";//这个程序写的并不是很智能,每个章节的链接地址还要自己修改下(注意自己修改)
  11. $max="46";//最大采集章节数(注意自己修改)
  12. $wsql = newhtmlsql();
  13. for($i=1;$i<=$max;$i++){
  14.     $a=sprintf("%02d",$i);
  15.     $url="http://www.daomubiji.com/$zhangjie-$a.html";
  16.     // connect to a URL
  17.     if(!$wsql->connect('url',$url)){
  18.         print'Error while connecting:' . $wsql->error;
  19.         exit;
  20.     }
  21.     if(!$wsql->query('SELECT * FROM h1')){
  22.         print"Query error: " . $wsql->error;
  23.         exit;
  24.     }
  25.     // show results:
  26.     foreach($wsql->fetch_array()as $row){
  27.         writeStatistic("\r\n".$row['text']."\r\n",$txt_name);
  28.         $echo=iconv("UTF-8","GBK",$row['text']);
  29.         //print_r($row);   
  30.     }
  31.     $wsql->isolate_content('<script src=http://busjs.vodone.cn/bus/ownerjs/advjs_47/47093/47093_56564_p7_.js></script>','<p align="center">');
  32.     if(!$wsql->query('SELECT * FROM *')){
  33.         print"Query error: " . $wsql->error;
  34.         exit;
  35.     }
  36.     // show results:
  37.     foreach($wsql->fetch_array()as $row){
  38.         writeStatistic(strip_tags($row['text'])."\r\n",$txt_name);
  39.         //print_r($row);   
  40.     }
  41.     print"$i. 章节:$echo 采集完成.....<br>";
  42.     print"--------------------------------------------------------<br>";
  43.     flush();
  44. }
  45. print "卷:$name 全部采集完成......";
  46. ?>

程序包下载:snoopy与htmlsql实例程序包
文章收集自:http://www.wangchong.org/spider/23.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值