snoopy与htmlsql实例（盗墓笔记采集）

最新推荐文章于 2021-07-01 23:03:37 发布

wang_quan_li

最新推荐文章于 2021-07-01 23:03:37 发布

阅读量1.6k

点赞数

分类专栏： Web信息抽取文章标签： snoopy htmlsql 采集

Web信息抽取专栏收录该内容

7 篇文章 0 订阅

订阅专栏

snoopy这个采集类库是个很好玩的东西，简单而且使用，一般的采集应付起来绰绰有余。
最近一个哥们要看盗墓笔记的全本TXT文档，让我帮他采集，想了下决定用snoopy和一个好玩的类库htmlsql来做，htmlsql第一次使用，感觉比较好玩，写SQL的感觉非常有趣，就是灵活性上不是很突出，但做这种小的采集足够了，可能是因为第一次使用这个类库，并不是很顺利，写了两个多钟头，才搞定这个采集，这里放出源码供大家下载吧，想玩玩的可以拿去参考下。
展示部分代码：

<?php
include_once("./snoopy.class.php");
include_once("./htmlsql.class.php");
require_once("./function.php");
//防止页面超时
set_time_limit(0);
//生成文本文档名称
$name="怒海潜沙";//自定义文件名(注意自己修改)
$txt_name=$name.".txt";
$zhangjie="nu-hai-qian-sha";//这个程序写的并不是很智能，每个章节的链接地址还要自己修改下(注意自己修改)
$max="46";//最大采集章节数(注意自己修改)
$wsql = new htmlsql();
for($i=1;$i<=$max;$i++){
$a=sprintf("%02d", $i);
$url="http://www.daomubiji.com/$zhangjie-$a.html";
// connect to a URL
if (!$wsql->connect('url', $url)){
print 'Error while connecting: ' . $wsql->error;
exit;
}
if(!$wsql->query('SELECT * FROM h1')){
print "Query error: " . $wsql->error;
exit;
}
// show results:
foreach($wsql->fetch_array() as $row){
writeStatistic("\r\n".$row['text']."\r\n",$txt_name);
$echo=iconv("UTF-8", "GBK", $row['text']);
//print_r($row);
}
$wsql->isolate_content('<script src=http://busjs.vodone.cn/bus/ownerjs/advjs_47/47093/47093_56564_p7_.js></script>','<p align="center">');
if (!$wsql->query('SELECT * FROM *')){
print "Query error: " . $wsql->error;
exit;
}
// show results:
foreach($wsql->fetch_array() as $row){
writeStatistic(strip_tags($row['text'])."\r\n",$txt_name);
//print_r($row);
}
print "$i. 章节： $echo 采集完成.....<br>";
print "--------------------------------------------------------<br>";
flush();
}
print "卷：$name 全部采集完成......";
?>

wang_quan_li

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
snoopy与htmlsql实例（盗墓笔记采集）

snoopy这个采集类库是个很好玩的东西，简单而且使用，一般的采集应付起来绰绰有余。最近一个哥们要看盗墓笔记的全本TXT文档，让我帮他采集，想了下决定用snoopy和一个好玩的类库htmlsql来做，htmlsql第一次使用，感觉比较好玩，写SQL的感觉非常有趣，就是灵活性上不是很突出，但做这种小的采集足够了，可能是因为第一次使用这个类库，并不是很顺利，写了两个多钟头，才搞定这个采集，这里放出
复制链接

扫一扫