利用requests模块爬取小说

本文介绍了一种使用Python的requests模块爬取网络小说的方法,通过面向过程的方式,逐章获取小说内容并存储为文本文件。首先导入requests库,然后模拟浏览器发送HTTP请求获取网页源码,接着使用正则表达式提取章节标题和URL,遍历章节列表,为每个章节创建单独的文本文件并保存内容。最后进行数据清理。尽管代码简单,但过程中仍遇到了挑战,需要不断巩固基础和保持学习。
摘要由CSDN通过智能技术生成

面向过程用python爬取网站某一小说并以文本形式存储

代码比较简单,过程如下:

1. 导入requests

import requests

2. 模拟浏览器发送HTTP请求,获得小说主页网页源码

novel_url = 'http://www.xs4.cc/book/9/3802/'
response = requests.get(novel_url)
response.encoding = 'utf-8'
html = response.text

3. 利用正则表达式获取每一章节title和url

div = re.findall(r'<DIV class="clearfix dirconone">.*?</div>',html,re.S)[0]
chapter_list = re.findall(r'<a href="(.*?)" title=".*?">(.*?)</a>',div)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值