python爬取某网站小说

目录

 

一.找到该网站的headers

二.找到某网站某一部小说的网址变化规律

三.代码爬取


一.找到该网站的headers

  • 打开小说网页,点击F12打开开发者工具
  • 点击网络,F5刷新下网页
  • 选择网络下左侧名称,下拉至底部,得到User-Agent

二.找到某网站某一部小说的网址变化规律

  • 小说第一章的网址

  • 小说第二章的网址

三.代码爬取文本

import requests
from bs4 import BeautifulSoup 
  • 此处为(一)中获得的headers 
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'}
  •  range中为想获得的章节数
####看300到350之间的小说
for i in range(300,350):
    url=f'https://www.xxxx.xx/book/930/{i}.html'#########输入小说的网址
    res=requests.get(url,headers=headers) 
    print(res.text) 

  • 去掉多余的格式
for i in range(300,350):
    url=f'https://www.biqg.cc/book/930/{i}.html'
    res=requests.get(url,headers=headers) 
    soup = BeautifulSoup(res.text,'html.parser') 
    novel_list = soup.find_all('body', class_='read')
    for novel in novel_list:
        title=novel.find('span',class_='title')
        content=novel.find('div',id='chaptercontent')
        print(content.title)
        print(content.text)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值