将网页制作成txt电子书的python脚本

最新推荐文章于 2024-05-02 12:45:46 发布

开水

最新推荐文章于 2024-05-02 12:45:46 发布

阅读量3.3k

点赞数

分类专栏： Python 文章标签： python html file import 编程 javascript

本文链接：https://blog.csdn.net/Cashey1991/article/details/6710009

版权

本文介绍了一个Python脚本，用于抓取在线阅读网站的书籍内容，并将其转换为TXT电子书。通过分析URL的规律，利用Python的urllib包下载页面，然后提取HTML中的文字内容，最后去除HTML标签并保存到TXT文件中。

摘要由CSDN通过智能技术生成

@1.必须知道的常识：
许多网站提供书籍的在线阅读，但是不提供那些书的下载，而且有的页面还受Javascript保护连复制也不允许。但是要下载这些书籍确不会太难，只需要一个小程序。

@2.注意在线阅读网站URL的规律，这是编程实现的关键：
   要把网页一个一个地扒下来，放到txt里，首先要找到网页URL的规律。
   以这本书为例《成长比成功更重要》——新浪读书的链接是：[http://vip.book.sina.com.cn/book/index_41187.html]
   点开序这一节，它的地址是[http://vip.book.sina.com.cn/book/chapter_41187_30970.html]
   点开它的第二节，地址又是[http://vip.book.sina.com.cn/book/chapter_41187_30971.html]
   ......
   点开它的最后一节，地址是[http://vip.book.sina.com.cn/book/chapter_41187_31082.html]
   很容易验证，它们地址都是连续的数字，这样编程自动生成一个链接地址是很容易的，只需要用一个递增数去生成地址就行了。

@3.下载页面的编程实现：
Python中有urllib这个包，把它import进来，里面有urllib.open('http://www.somesite.com')，这个函数，返回一个文件对象，只需要用返回的文件对象调用read()方法，就会返回一个字符串