基于requests爬虫17k小说网站---py版本-CSDN博客

本文链接：https://blog.csdn.net/2301_80068745/article/details/138021697

import requests
from lxml import etree
import json

headers={
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Mobile Safari/537.36'
}
session = requests.Session()
session.post('https://passport.17k.com/ck/user/login',
             data={
                 'loginName': '18994370039',
                 'password': 'hyh211985'
             },
             headers=headers)
res = session.get('https://user.17k.com/ck/author2/shelf?page=1&appKey=2406394919')
res.encoding = 'utf-8'
data = res.json().get("data")
# 循环处理每一本书
for book_Dict in data:
    book_id = book_Dict.get("bookId")
    # 爬虫每一章节的页面
    res = requests.get(f'https://www.17k.com/list/{book_id}.html')
    res.encoding = 'utf-8'
    # 爬虫获取章节的链接
    selector = etree.HTML(res.text)
    itmes = selector.xpath('//dl[@class="Volume"]/dd/a')
    for item in itmes:
        chapter_href = item.xpath('./@href')[0]
        chapter_title = not item.xpath('./span/text()')[0].strip()
        # 爬取章节内容
        res = requests.get(f'https://www.17k.com' + chapter_href)
        res.encoding = 'utf-8'
        chapter_html = res.text
        selector = etree.HTML(chapter_html)
        ret = selector.xpath('//div[@class="p"]/p')
        print(ret)
        break