廖雪峰 php教程,获取廖雪峰老师的Python3教程的php脚本

最新推荐文章于 2024-04-03 21:32:00 发布

bellebiself

最新推荐文章于 2024-04-03 21:32:00 发布

阅读量248

点赞数

文章标签：廖雪峰 php教程

该博客分享了一个用PHP编写的脚本，用于下载廖雪峰网站上的Python3教程。作者首先获取教程目录页面，然后通过正则表达式匹配并遍历每个章节，分别下载内容并保存为GBK编码的TXT文件。脚本适用于命令行环境，体现了网页内容抓取和文件操作的技术。

摘要由CSDN通过智能技术生成

P.S. 2019年11月15日更新。

昨天一个朋友问我能否帮忙下载廖雪峰老师的python3教程，于是便写了这个php脚本。

在这里非常感谢廖雪峰老师的辛苦努力。<?php

/**

* 获取Python3教程

* 感谢廖雪峰老师

* 教程地址: https://www.liaoxuefeng.com/wiki/1016959663602400

* 命令行下运行

* @AUTHOR: 杨永全

* @E-mail: qt06.com@139.com

* @URL: http://www.qt.hk/

* WEIBO: http://weibo.com/qt06

*/

$base_url = "https://www.liaoxuefeng.com/wiki/1016959663602400/";

//获取教程目录页面

$s = file_get_contents("https://www.liaoxuefeng.com/wiki/1016959663602400");

//匹配出包含教程目录的html片段

preg_match('#

(.*?)

#is', $s, $rs);

$s1 = $rs[1];

//匹配出目录列表

preg_match_all('#(.+?)#is', $s1,$list);

$cnt = count($list[1]);

for($i=0;$i< $cnt;$i++) {

//命令行打印章节标题和地址

echo ($i + 1) .$list[2][$i] . ',' . $list[1][$i]. "\r\n";

//需要保存的文件名

$filename = iconv('utf-8', 'gbk', ($i + 1) . ' ' . $list[2][$i] . '.txt');

$filename = str_replace('/', '和', $filename);

//获取教程详细内容

$content_url = $base_url . $list[1][$i];

$title = $list[2][$i];

$s = file_get_contents($content_url);

//匹配出详细内容

preg_match('#

(.*?)

.*?

#is',$s,$rs);

$s = $rs[1];

//过滤html标记，并适当处理空行

$s = str_replace(">\n\n\n

$s = strip_tags($s);

$s = str_replace("\n\n\n", "\n\n", $s);

$s = str_replace("\n\n\n", "\n\n", $s);

$s = str_replace("\n\n\n", "\n\n", $s);

//可能会有副作用，导致代码中的\\n被处理

$s = str_replace("\n", "\r\n", $s);

//处理html实体字符

$s = html_entity_decode($s);

//$s = str_replace('>', '>', $s);

//$s = str_replace(''','\"', $s);

//保存到当前目录，windows的文件名必须是gbk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。