python如何爬取小说
大家好,本人第一次写博客,如果有什么写的不足的或者不好的请斧正
感谢jack-cui的博主,我也是在博主的博客文章学习的,文章内容非常详细,有借鉴的成分想看原文点击
好了话不多说直接来看如何去写
爬取网站https://www.xsbiquge.com/20_20331/
要引入的包有 requests,bs4,os
#上面要的包都可以 win+r 里面这个来下载
pip install requests #包的名字
弄不懂的也可以去百度里面问大神
先来分析内容
可以按F12,Chrome开发者工具可以看到html页面,所以我们先爬取其中的内容
# -*- coding:UTF-8 -*-
import requests
url='https://www.xsbiquge.com/20_20331/'
req=requests.get(url=url)
print(req.text)
然后我们会发现文字不是我们想要的网页
没有问题,我们继续来解决
现在看起来就正常了
至于为什么加req.encoding=req.apparent_encoding 应为它可以自动翻译成 ‘utf-8’
来我们继续爬取我们想要的内容
可以看到还不是我们想要的文本格式,继续
然后我们来解析整个的url来爬取整本小说
上代码
最后我们整合代码
我爬取的格式和jack-cui的格式不一样 ,想在创建一个文件夹下在创建txt文件,每一章节对应每一个txt文件
上代码看看
if not os.path.exists(b):
os.makedirs(b)
这个是判断是不是有这个文件夹,没有就创建,有不管
效果还是令人满意
自己最后也没明白为什么下载不完?希望大家想想办法
环境永远不会十全十美,消极的人受环境控制,积极的人却控制环境
愿我的青春不在迷茫,在逆境中砥砺前行