前言
工作有一段时间了,每天早上醒来刷朋友圈发现朋友们都在国外,想想他们当年的英语水平,也比我高不到哪里去,而我现在由于半年没碰英语,怕是单词都不认识几个了吧。但我又很讨厌背单词,读一些艰难苦涩的英文小说也很难读下去。突然想起来之前看资讯的时候,说国内的一些网络武侠/玄幻小说在国外十分盛行,还有人建立了专门的网站,将中文小说一点点翻译成英文供大家看。——诶?我也很爱看这些网络小说啊!三少、土豆西红柿,当年上学的时候不知道有多少个夜晚偷偷看他们的书。
我决定从之前看过很多次的《星辰变》开始,读一读它的英文版。但是网页版的在手机里毕竟兼容性不好,不如下载下来txt版本的放在手机里看。
准备工作
首先,我们找到目标小说《星辰变》的首页,在Completed里,其英文名为Stellar Transformations
定位到星辰变主页.png
找到了http://www.wuxiaworld.com/st-index/这个页面,是星辰变的主页啦。
下面我们来分析一下网页结构:
我用的Chrome浏览器,鼠标选中章节链接后,右键->检查,可以定位到源代码中相应的元素。
如下图所示:
image.png
能够定位到信息了,首先需要做的,是找到所有Chapter对应的地址链接,即上图红框中href部分的内容。
首先把一些基础信息写下,包括目录页面url及请求头,一般比较简单的网站,请求头只把User-Agent写上就可以了,具体值可以去network里随便找一个请求,复制一下自己相应的值。
homepage_url = 'http://www.wuxiaworld.com/st-index/'
headers = {'User-Agent': *******}
获取所有需要爬取的页面链接
接下来我们去获取页面源代码,然后定位到相应元素。
def get_all_url():
# 获取页面源代码
request_url = h