爬取某小说网站

本文介绍如何利用Python进行网络爬虫,针对特定的小说网站进行数据抓取,包括爬取小说章节标题、内容以及作者信息等。通过实例演示了Python的requests库用于发送HTTP请求,BeautifulSoup库解析HTML页面,以及如何处理反爬虫策略,如设置延时和使用代理IP。
摘要由CSDN通过智能技术生成
爬取某荒小说网站,该网站小说广告比较少,易于尝试爬取,请不要过分爬取,以免造成网站崩溃
import requests
from fake_useragent import UserAgent
from lxml import etree
import os,time


def get_html(url):
    ua = UserAgent()
    headers = {
   'User-Agent':ua.random}
    # print(headers)
    response = requests.get(url, headers=headers)
    response.encoding = 'gzip'
    return response

def be_tree(url):
    response = get_html(url)
    tree = etree.HTML(response.text)
    return tree

def get_novelinfos(url):
    tree = be_tree(url)
    titles = tree.xpath('/html/body/div[1]/div[1]/div/ul/li/div/a/div[2]/h4/text()')
    true_urls = tree.xpath('/html/body/div[1]/div[1]/div/ul/li/div/a/@href'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值