python爬虫书籍外文_Python爬虫——WuXiaWorld英文版小说

最新推荐文章于 2021-12-24 18:21:13 发布

weixin_39737368

最新推荐文章于 2021-12-24 18:21:13 发布

阅读量997

点赞数

文章标签： python爬虫书籍外文

前言工作有一段时间了，每天早上醒来刷朋友圈发现朋友们都在国外，想想他们当年的英语水平，也比我高不到哪里去，而我现在由于半年没碰英语，怕是单词都不认识几个了吧。但我又很讨厌背单词，读一些艰难苦涩的英文小说也很难读下去。突然想起来之前看资讯的时候，说国内的一些网络武侠/玄幻小说在国外十分盛行，还有人建立了专门的网站，将中文小说一点点翻译成英文供大家看。——诶？我也很爱看这些网络小说啊！三少、土豆西红柿...

摘要由CSDN通过智能技术生成

前言

工作有一段时间了，每天早上醒来刷朋友圈发现朋友们都在国外，想想他们当年的英语水平，也比我高不到哪里去，而我现在由于半年没碰英语，怕是单词都不认识几个了吧。但我又很讨厌背单词，读一些艰难苦涩的英文小说也很难读下去。突然想起来之前看资讯的时候，说国内的一些网络武侠/玄幻小说在国外十分盛行，还有人建立了专门的网站，将中文小说一点点翻译成英文供大家看。——诶？我也很爱看这些网络小说啊！三少、土豆西红柿，当年上学的时候不知道有多少个夜晚偷偷看他们的书。

我决定从之前看过很多次的《星辰变》开始，读一读它的英文版。但是网页版的在手机里毕竟兼容性不好，不如下载下来txt版本的放在手机里看。

准备工作

首先，我们找到目标小说《星辰变》的首页，在Completed里，其英文名为Stellar Transformations

定位到星辰变主页.png

找到了http://www.wuxiaworld.com/st-index/这个页面，是星辰变的主页啦。

下面我们来分析一下网页结构：

我用的Chrome浏览器，鼠标选中章节链接后，右键->检查，可以定位到源代码中相应的元素。

如下图所示：

image.png

能够定位到信息了，首先需要做的，是找到所有Chapter对应的地址链接，即上图红框中href部分的内容。

首先把一些基础信息写下，包括目录页面url及请求头，一般比较简单的网站，请求头只把User-Agent写上就可以了，具体值可以去network里随便找一个请求，复制一下自己相应的值。

homepage_url = 'http://www.wuxiaworld.com/st-index/'

headers = {'User-Agent': *******}

获取所有需要爬取的页面链接

接下来我们去获取页面源代码，然后定位到相应元素。

def get_all_url():

# 获取页面源代码

request_url = h

最低0.47元/天解锁文章

weixin_39737368

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫书籍外文_Python爬虫——WuXiaWorld英文版小说

前言工作有一段时间了，每天早上醒来刷朋友圈发现朋友们都在国外，想想他们当年的英语水平，也比我高不到哪里去，而我现在由于半年没碰英语，怕是单词都不认识几个了吧。但我又很讨厌背单词，读一些艰难苦涩的英文小说也很难读下去。突然想起来之前看资讯的时候，说国内的一些网络武侠/玄幻小说在国外十分盛行，还有人建立了专门的网站，将中文小说一点点翻译成英文供大家看。——诶？我也很爱看这些网络小说啊！三少、土豆西红柿...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。