前言
嗨喽,大家好呀~这里是爱看美女的茜茜呐
环境使用:
-
Python 3.8
-
Pycharm
模块使用:
-
requests >>> pip install requests 数据请求模块
-
parsel >>> pip install parsel 数据解析模块
安装方法:
win + R 输入cmd 输入安装命令 pip install 模块名
(如果你觉得安装速度比较慢, 你可以切换国内镜像源)
本次 采集目标:灵剑尊
👇 👇 👇 更多精彩机密、教程,尽在下方,赶紧点击了解吧~
素材、视频教程、完整代码、插件安装教程我都准备好了,直接在文末名片自取就可
案例分为三部分:
一. 采集单章漫画内容
二. 采集整本漫画内容
三. 采集整个网站内容
代码展示
导入模块
# 导入数据请求模块
import requests
# 导入数据解析模块
import parsel
# 导入正则
import re
"""
1. 发送请求: 模拟浏览器对于url地址发送请求
- 模拟浏览器: 防止被反爬
headers请求头 <开发者工具中复制>
- 请求url地址
- 发送请求 / 请求方式
"""
模拟浏览器 构建字典形式
headers = {
# User-Agent 用户代理 表示浏览器基本身份信息
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0