爬虫第一步:确定要爬取的信息
确定要爬取的网站的URL地址:http://www.xbiquge.la/6/6818/
第二步:分析网站信息
爬小说要获取小说章节目录名称和每一章的阅读链接
第三步:编写代码:
本次爬虫练习完整代码,存在缺陷,小说章节过多的话爬虫可能会被封Ip
import requests
import re
from lxml import etree
import os
import time
def get_html():
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
# 小说目录URL,改变这个URL就可以下载对应的小说
url = 'http://www.xbiquge.la/6/6818/'
html = requests.get(url, headers=headers).content.decode('utf-8')
return html
def get_novel_url(html)