用Python爬取顶点小说网站中的《庆余年》思路参考——记一次不成功的抓取

本文介绍了尝试使用Python爬虫抓取顶点小说网《庆余年》的思路和步骤,包括获取章节URL和内容的方法,以及遇到的问题和可能的解决方案,如模拟登录和使用代理IP。
摘要由CSDN通过智能技术生成

目的:用python爬虫抓取顶点小说网站中的《庆余年》小说内容个,并保存为txt格式文件。

环境:Win10系统,Anaconda3 + PyCharm, python3.6版本

思路:(1)先在整个目录页,下载每一章节对应的URL和标题;(2)针对每一章的URL,下载对应的内容,将内容按照顺序存在TXT文件中。

步骤:

1.顶点小说中《庆余年》的主页网址:

https://www.booktxt.net/1_1902/

2. 在主页中,【楔子 一块黑布】处点击鼠标右键,选择【检查】,步骤如上图所示,结果如下图:

可以看到,所有的章节标题和对应的超链接,都在<a href="***".html>***</a>中,  href是对应的部分url,文本是题目。

3.打开【楔子 一块黑布】章节,发现《庆余年》主页的网址 https://www.booktxt.net/1_1902/ + <a>中的 href部分的url组合起来就是本节的真正网址;

4.在本节内容任意一处单击鼠标右键,选择【检查】,步骤如上图所示, 结果如下图所示:

可以发现内容在<div id="content">***</div>中,注意其中有空行。

5.初步代码参考,先打印出每个章节对应的网址和题目:

import requests
from bs4 import BeautifulSoup
import os
import time
import random
import re


all_url = 'https://www.booktxt.net/1_1902/'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'
}

start_html = requests.get(url=all_url, headers=headers)

# print(start_html.status_code)  #200
# print(type(start_html))        #<class 'requests.models.Response'>
# print(start
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值