嗨喽~大家好呀,这里是魔王呐 ❤ ~!
python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取
环境使用:
-
Python 3.10
-
Pycharm
模块使用:
-
requests >>> pip install requests 数据请求模块
-
parsel >>> pip install parsel 数据解析模块
模块安装:
win + R 输入cmd 输入安装命令 pip install 模块名
例如: requests >>> pip install requests
爬虫实现的基本流程
一. 数据来源分析
-
明确需求
明确采集的网站以及数据内容
-
网址: https://www.mkzhan.com/209412/1004107.html
-
数据: 漫画内容(41张图片)
-
-
抓包分析 (浏览器中进行操作)
通过浏览器自带开发者工具, 分析我们需要的数据内容在什么地方
-
开发开发者工具: F12 / 右键点击检查选择 network (网络)
-
刷新网页: 让网页数据内容重新加载一遍
-
找到图片链接: 过滤图片直接点击Img
-
通过关键字找到对应数据包: 存在一个数据包含了整章漫画内容数据 (41张图)
关键字: 使用图片链接中一段参数即可
-
数据包地址:
https://comic.mkzcdn.com/chapter/content/v1/?chapter_id=1004107&comic_id=209412&format=1&quality=1&sign=80cc6ea2ef3e7911cdaef9199d74c66a&type=1&uid=69982021
二. 代码实现步骤
-
发送请求
模拟浏览器对于url地址发送请求
-
模拟浏览器 (可以直接复制)
-
请求网址:
https://comic.mkzcdn.com/chapter/content/v1/?chapter_id=1004107&comic_id=209412&format=1&quality=1&sign=80cc6ea2ef3e7911cdaef9199d74c66a&type=1&uid=69982021
-
发送请求: requests模块 根据开发者工具提示请求方法去发送即可
-
代码内容
导入模块
'''
Python学习交流,免费公开课,免费资料,
免费答疑,系统学习加QQ群:926207505
'''
import