爬取小说《偷偷藏不住》(python实现)

import requests
from bs4 import BeautifulSoup
from docx import Document
from requests.packages.urllib3.exceptions import InsecureRequestWarning

# 禁用特定警告
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)

# 创建一个新的文档对象
doc = Document()
# 添加标题
doc.add_heading('偷偷藏不住', 0)

for page in range(1, 90):
    print(f"正在爬取《偷偷藏不住》第{page}集···")
    url = f'https://www.51shucheng.net/yanqing/toutoucangbuzhu/{page + 248176}.html'

    response = requests.get(url, verify=False)
    response.encoding = 'utf-8'

    if response.status_code == 200:

        # 添加带有样式的段落
        doc.add_paragraph(f"第{page}集", style='Heading 1')

        soup = BeautifulSoup(response.text, "html.parser")
        frame = soup.find("div", id="neirong")
        ps = frame.find_all('p')
        for p in ps:
            doc.add_paragraph(p.text)
            
        print(f"《偷偷藏不住》第{page}集爬取成功")
    else:
        print(response.status_code)

# 保存文档
doc.save('《偷偷藏不住》.docx')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值