将网页制作成txt电子书的python脚本

本文介绍了一个Python脚本,用于抓取在线阅读网站的书籍内容,并将其转换为TXT电子书。通过分析URL的规律,利用Python的urllib包下载页面,然后提取HTML中的文字内容,最后去除HTML标签并保存到TXT文件中。
摘要由CSDN通过智能技术生成

@1.必须知道的常识:
    许多网站提供书籍的在线阅读,但是不提供那些书的下载,而且有的页面还受Javascript保护连复制也不允许。但是要下载这些书籍确不会太难,只需要一个小程序。


@2.注意在线阅读网站URL的规律,这是编程实现的关键:
    要把网页一个一个地扒下来,放到txt里,首先要找到网页URL的规律。
    以这本书为例《成长比成功更重要》——新浪读书的链接是:[http://vip.book.sina.com.cn/book/index_41187.html]
    点开序这一节,它的地址是[http://vip.book.sina.com.cn/book/chapter_41187_30970.html]
    点开它的第二节,地址又是[http://vip.book.sina.com.cn/book/chapter_41187_30971.html]
    ......
    点开它的最后一节,地址是[http://vip.book.sina.com.cn/book/chapter_41187_31082.html]
    很容易验证,它们地址都是连续的数字,这样编程自动生成一个链接地址是很容易的,只需要用一个递增数去生成地址就行了。


@3.下载页面的编程实现:
    Python中有urllib这个包,把它import进来,里面有urllib.open('http://www.somesite.com'),这个函数,返回一个文件对象,只需要用返回的文件对象调用read()方法,就会返回一个字符串

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值