实战:用python爬取全本小说

本文介绍了一次使用Python爬取全本小说的实战过程,包括声明仅作学习用途,爬取目标,安装requests和BeautifulSoup库,通过获取目录页获取章节链接,逐章爬取正文,并将内容保存到文件中。详细步骤和代码示例提供。
摘要由CSDN通过智能技术生成

一、声明




本次爬取仅作为学习练习使用,如有冒犯请联系删除




练习目标

爬取网站中的小说并存起来
思路

    1. 爬取目录页,得到所有章节的链接地址
    1. 一次爬取每章小说的正文

二、准备工作

安装第三方库

  • requests
  • BeautifulSoup

详情可以我的另一篇: 第四篇:python网络爬虫

三、 实战演练

首先导入 requestsBeautifulSoup模块

import requests
from bs4 import BeautifulSoup

以爬取89文学网为例:
!](https://img-blog.csdnimg.cn/direct/93db06420a2441b9bde179d5a4016cc2.png)
红色框起来的就是目标url

定义方法,传入目标url:

def get_novel_chapters():
	root_url = "http://www.89wxw.cc/16/16705/"
	r = requests.get(root_url)
	r.encoding = "gbk"
	soup = BeautifulSoup(r.text,"html.parser")
	# 用于储存 文章url 以及对应的 文章名
	data = []
	# 因为所需的url都在dd标签内
	for dd in soup.fin_all("dd")
		link = dd
  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值