爬取某小说网站

最新推荐文章于 2024-07-10 17:31:12 发布

kaixin365days

最新推荐文章于 2024-07-10 17:31:12 发布

阅读量1k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/kaixin365days/article/details/106764010

版权

本文介绍如何利用Python进行网络爬虫，针对特定的小说网站进行数据抓取，包括爬取小说章节标题、内容以及作者信息等。通过实例演示了Python的requests库用于发送HTTP请求，BeautifulSoup库解析HTML页面，以及如何处理反爬虫策略，如设置延时和使用代理IP。

摘要由CSDN通过智能技术生成

爬取某荒小说网站，该网站小说广告比较少，易于尝试爬取，请不要过分爬取，以免造成网站崩溃

import requests
from fake_useragent import UserAgent
from lxml import etree
import os,time


def get_html(url):
    ua = UserAgent()
    headers = {
   'User-Agent':ua.random}
    # print(headers)
    response = requests.get(url, headers=headers)
    response.encoding = 'gzip'
    return response

def be_tree(url):
    response = get_html(url)
    tree = etree.HTML(response.text)
    return tree

def get_novelinfos(url):
    tree = be_tree(url)
    titles = tree.xpath('/html/body/div[1]/div[1]/div/ul/li/div/a/div[2]/h4/text()')
    true_urls = tree.xpath('/html/body/div[1]/div[1]/div/ul/li/div/a/@href'