用PHP做采集功能网站的思路

最新推荐文章于 2022-11-02 11:16:56 发布

weixin_34007886

最新推荐文章于 2022-11-02 11:16:56 发布

阅读量138

点赞数

文章标签： php python

原文链接：https://my.oschina.net/feanlau/blog/891189

版权

2019独角兽企业重金招聘Python工程师标准>>>

1、指定一个列表页，用curl或file_get_contents将页面读取进来；
2、用正则或者XML分析DOM，获取到列表中文章的超链接，将其保存为一个任务数组；
3、遍历数组（循环），使用curl或file_get_contents将数组中的超链接指向的页面读取进来；
4、用正则或者XML分析DOM，获取到文章正文内容，将内容写入数据库中或者使用file_put_contents保存下来。
这是我的大体思路，有错误之处请指正。
可能需要注意的问题：如果页面超时，可以改大脚本运行超时间；为了提高效率是否要改为并发执行的curl_multi；如果被盗取的网站使用了参考referer的防盗链机制需要伪造referer等。

转载于:https://my.oschina.net/feanlau/blog/891189