python3爬取纵横网小说并写入文本文件

最新推荐文章于 2024-05-30 10:25:47 发布

难能可贵是梦想

最新推荐文章于 2024-05-30 10:25:47 发布

阅读量636

点赞数

分类专栏： python学习文章标签：爬虫 python3

本文链接：https://blog.csdn.net/dhr201499/article/details/107317802

版权

文中用到的库：
request
BeautifulSoup

requests库的一些方法：

爬取网页主要有如下几个关键步骤：

get请求则使用requests.get请求网页：

response = requests.get(book_url, headers=header)

soup = BeautifulSoup(response.text,'lxml')# 使用BeautifulSoup解析网页，解析的结果就是一个完整的html网页

content = html.select('#readerFt > div > div.content > p')# 使用soup.select，通过标签查找正文

通过子标签查找时，尽量不使用完整的selector

比如下图中，正文都是放在class=content标签下的每一个<p></p>标签中

eg：第二个<p></p>标签复制出来的selector就是这样的：#readerFt > div > div.content > p:nth-child(2)，由于我们是爬取整篇小说ÿ

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注