python爬虫实践—纵横中文网免费小说爬取

最新推荐文章于 2025-02-25 15:00:00 发布

是浅蓝

最新推荐文章于 2025-02-25 15:00:00 发布

阅读量2.3k

点赞数 1

分类专栏： python 爬虫文章标签： xpath sublime text http

本文链接：https://blog.csdn.net/qq_36947570/article/details/106127853

版权

本文介绍了如何使用Python进行网络爬虫，具体目标是从纵横中文网抓取免费小说链接。通过XPath解析HTML，结合Sublime Text进行代码编辑，并利用HTTP协议进行网络请求，实现小说数据的自动化爬取。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python爬虫实践—纵横中文网免费小说爬取（仅供记录学习）

爬取初始页面链接: http://book.zongheng.com/store/c1/c0/b0/u0/p1/v9/s1/t0/u0/i1/ALL.html
.

python代码.

// An highlighted block
import requests
from lxml import etree
import re
import os,time

def getHtml(url):
	headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.36 Safari/537.36'}
	html = requests.get(url,headers = headers)
	return html.text

def getBookId(url):
	bookIdList = []
	text = getHtml(url)
	html = etree.HTML(text)
	bookUrlList = html.