@1.必须知道的常识:
许多网站提供书籍的在线阅读,但是不提供那些书的下载,而且有的页面还受Javascript保护连复制也不允许。但是要下载这些书籍确不会太难,只需要一个小程序。
@2.注意在线阅读网站URL的规律,这是编程实现的关键:
要把网页一个一个地扒下来,放到txt里,首先要找到网页URL的规律。
以这本书为例《成长比成功更重要》——新浪读书的链接是:[http://vip.book.sina.com.cn/book/index_41187.html]
点开序这一节,它的地址是[http://vip.book.sina.com.cn/book/chapter_41187_30970.html]
点开它的第二节,地址又是[http://vip.book.sina.com.cn/book/chapter_41187_30971.html]
......
点开它的最后一节,地址是[http://vip.book.sina.com.cn/book/chapter_41187_31082.html]
很容易验证,它们地址都是连续的数字,这样编程自动生成一个链接地址是很容易的,只需要用一个递增数去生成地址就行了。
@3.下载页面的编程实现:
Python中有urllib这个包,把它import进来,里面有urllib.open('http://www.somesite.com'),这个函数,返回一个文件对象,只需要用返回的文件对象调用read()方法,就会返回一个字符串