Qishu

最新推荐文章于 2022-09-29 04:04:09 发布

baidu_252253

最新推荐文章于 2022-09-29 04:04:09 发布

阅读量484

点赞数

分类专栏： Xpath实战

本文链接：https://blog.csdn.net/baidu_32542573/article/details/80445248

版权

Xpath实战专栏收录该内容

2 篇文章 0 订阅

订阅专栏

#coding:utf-8
import re
from bs4 import BeautifulSoup
from lxml import etree
from urllib import request
# 随机产生请求头中User-Agent

''' 三种网页数据解析的方式
正则最难效率高
bs4 中等难度效率稍低
xpath 最简单效率低

# json数据解析
json数据解析中等难度
'''

from fake_useragent import UserAgent
'''
1.获取首页源代码,从中提取出分类二级页面地址
2.从二级页面中提取三级页面地址,并且提取下一页地址
3.从三级页面中提取数据保存数据
'''
class QSWSpider(object):

# 初始化函数
def __init__(self):
self.baseurl = 'https://www.qisuu.com/'
self.ua = UserAgent()
self.headers = {
'User-Agent':self.ua.random,
'Accept':"text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
'Accept-Language':"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3"
}
self.html = ''
# 发起请求,接收数据
def get_html(self,url):
# 每次发起请求,切换请求头
self.headers['User-Agent'] = self.ua.random
req = request.Request(url,headers=self.headers)
# 发起请求,接收响应
response = request.urlopen(req)
# 赋值源代码
self.html = response.read().decode('utf-8')

# 解析二级页面地址
def parse_categray(self):
# 1.正则
# pattern = re.compile('<div class="nav".*?<a.*?<a.*?href="(.*?)"',re.S)
# res = re.search(pattern,self.html)
# if res:
# print(res.group(1))
# else:
# print('没有找到该分类')

# 2.bs4 写法
# bs = BeautifulSoup(self.html,'lxml')
# # 找到.nav a:nth-of-type() 伪类选择器找到class为nav下的第二个a标签
# # res = bs.select('.nav a:nth-of-type(2)')
# res = bs.select('.nav a')[1]
# # 提取href属性值
# categray_link = res['href']
# print(categray_link)

# 3.xpath etree.HTML
doc = etree.HTML(self.html)
res = doc.xpath('//div[@class="nav"]/a[2]/@href')[0]
# 拼接完整的分类地址
categray_link = self.baseurl + res
# 发起请求,获取二级页面数据
self.get_html(categray_link)
self.parse_detail()

# 解析二级页面,提取小说详情地址
def parse_detail(self):
# 1.正则
# pattern = re.compile('<div class="s".*?<a.*?href="(.*?)"',re.S)
# res = re.findall(pattern,self.html)
# print(res)
# 下一页
# pattern = re.compile('<div class="tspage".*?<a.*?href="(.*?)"',re.S)
# res= re.search(pattern,self.html)
# print(res.group(1))
# 2.xpath
# doc = etree.HTML(self.html)
# res =doc.xpath('//div[@class="listBox"]/ul/li/a[1]/@href')
# print(res)

# 3.bs4
bs = BeautifulSoup(self.html,'lxml')
# 小说详情url地址
# 使用> 查找时需要在两边加上空格
res = bs.select('.listBox ul li > a')
for a in res:
# 拼接完整的详情url地址
detail_link = self.baseurl+a['href']
# 发起请求
self.get_html(detail_link)
# 解析小说详情数据
self.parse_novel_detail()

res = bs.select('.tspage a')
url = ''
# for循环遍历所有的a标签,判断a标签文本是否为下一页
for a in res:
if a.string == '下一页':
url = a['href']
# 如果有下一页
if url != '':
# 拼接完整的地址
url = self.baseurl+url
# 发起请求,解析下一页数据
# self.get_html(url)
# self.parse_detail()
else:
print('没有下一页')
# 解析小说详情数据
def parse_novel_detail(self):
# 1.正则
# pattern = re.compile("""<div class="detail_pic.*?<img.*?src="(.*?)".*?<h1>(.*?)</h1.*?<li.*?>(.*?)</li.*?<li.*?>(.*?)</li.*?<li.*?>(.*?)</li.*?<li.*?>(.*?)</li.*?<li.*?>(.*?)</li.*?<li.*?>(.*?)</li.*?<li.*?>(.*?)</li>.*?class="downButton.*?href='(.*?)'""",re.S)
# res = re.findall(pattern,self.html)
# print(res)

# 2.bs4
# bs = BeautifulSoup(self.html,'lxml')
# # 封面图
# res = bs.select('.detail_pic img')
# src = res[0]['src']
# # 小说信息列表,根据索引从中取出数据,处理数据
# infos = bs.select('.detail_right ul li')
# # 在线阅读地址
# res = bs.select_one('.downButton')

# 3.xpath
doc = etree.HTML(self.html)
# 封面图
res = doc.xpath('//div[@class="detail_pic"]/img/@src')
print(res)
# 小说详情数据
res = doc.xpath('//div[@class="detail_right"]/ul/li/text()')
# 在线阅读地址
res = doc.xpath('//a[@class="downButton"]/@href')
print(res)

# 保存数据,保存sqlite3数据库中保存csv文件

def start(self):
# 执行获取首页源码
self.get_html(self.baseurl)
# 解析分类列表
self.parse_categray()

if __name__ == '__main__':
qsw = QSWSpider()
qsw.start()