用python爬取小说章节内容

最新推荐文章于 2024-08-07 09:00:00 发布

落花人独立_微雨燕双飞

最新推荐文章于 2024-08-07 09:00:00 发布

阅读量2.9k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/qq_41684261/article/details/86634657

版权

本文介绍如何使用Python进行网络爬虫，通过五个步骤实现小说章节内容的抓取，包括获取链接、正则表达式匹配、内容获取、内容处理及写入文件。适合有一定HTML基础的学习者参考。

摘要由CSDN通过智能技术生成

在学爬虫之前, 最好有一些html基础, 才能更好的分析网页.

主要是五步:

1. 获取链接

2. 正则匹配

3. 获取内容

4. 处理内容

5. 写入文件

代码如下:

#导入相关model
from bs4 import BeautifulSoup
import requests
import re

#获取目标链接地址
url = 'http://www.biquyun.com/0_292/'
reponse = requests.get(url)
reponse.encoding = 'gbk' #设置编码方式,可在网页源码头部查到
html = reponse.text

#获取各章节链接和标题
#审查元素, 找到小说章节的代码位置, 找出其对应的标签, 进行正则匹配
dl = re.findall(r'<dd><a href="(.*?)">(.*?)</a>', html, re.S) #返回list类型
j=0 #计数, 只获取前30章, 多了结果要很久才出来

#进行章节内容获取
for chapter in dl:
    if j >= 30:
        break
    #获取章节链接,名字.等价于c_link=chapter[0]; c_title=chapter[1]
    chapter_link, chapter_title = chapter
    #补全链接,因为之前获取的只是链接的尾部
    chapter_link = "http://www.biquyun.com%s" % chapter_link

    #仿照之前的再写一遍
    chapter_reponse = requests.get(chapter_link)
    chapter_reponse.e