php抓取网站整站链接,抓取某一个网站整站的记录

最新推荐文章于 2023-09-21 15:19:53 发布

weixin_39917211

最新推荐文章于 2023-09-21 15:19:53 发布

阅读量255

点赞数

文章标签： php抓取网站整站链接

经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点，到网上找了很多工具进行测试，试了很多各有各的问题，最终选择了Teleport Ultra，用起来效果很好；具体的操作手册等东西就不在这里说了，网上搜索一下有很多，这里主要说遇到的问题：

工具截图：

抓取后的效果图

一般我会选择复制100级基本上也就把网站的东西全部copy下来了，但是因为Teleport Ultra 是以UTF-8的编码进行的抓取如果文件中有中文字符，或者gbk编码的文件就会出现乱码如下图：

当然手动在浏览器选择UTF-8也可以，但是咱不能每次打开都这样干吧。于是到网站找到一款软件叫：TelePort乱码修复工具(siteRepair-v2.0)，经过测试可以解决乱码的问题，这款工具也会清除一些无效的链接和html符号等。

软件截图：

绝大数网站再经过这两个步骤应该都已经OK了，但是有的网站的层级结构中用到了中文目录或者中文的文件名就会出现乱码，类似下面的URL地址：

这样网站的结构抓取下来就会出现两种乱码：1)文件夹名乱码 2)文件名乱码

遇到这个问题siteRepair-v2.0工具就会报错，我估计是不能识别乱码的文件夹或者文件吧。

后来在网上找了一个PHP的程序，进行了简单的修改测试可以解决这个问题

PHP代码:convert.php

{if(is_dir($dir))

{if ($dh = opendir($dir))

{while (($file = readdir($dh)) !== false)

{if((is_dir($dir."/".$file)) && $file!="." && $file!="..")

{rename($dir."/".$file,$dir."/".mb_convert_encoding($file,"GBK", "UTF-8"));

listDir($dir."/".$file."/");

}else{if($file!="." && $file!="..")

{$name=rename($dir."/".$file,$dir."/".str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")));echo '路径：'.$dir."/".$file.'
';echo '结果： '.str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")).'
';

}

}

}closedir($dh);

}

}

}?>

listDir("./convert");?>

在代码的同级目录下，新建 convert文件夹，把乱码的文件放入这个目录，然后执行convert.php即可。

weixin_39917211

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。