前言
嗨喽~大家好呀,这里是魔王呐 ❤ ~!
环境使用:
-
python 3.8 >>> 运行代码
-
pycharm 2021.2 >>> 辅助敲代码
模块使用:
第三方模块 需要安装
- import requests >>> 导入数据请求模块
内置模块 你安装好python环境就可以了
-
import datetime >>> 对日期数据进行处理的主要模块
-
import hashlib >>> 提供了多种安全方便的摘要方法
-
import time >>> 主要用于时间的操作和转换
-
import csv >>> 一种通用的文件格式
第三方模块安装:
win + R 输入cmd 输入安装命令 pip install 模块名 (如果你觉得安装速度比较慢, 你可以切换国内镜像源)
python资料、源码、教程\福利皆: 点击此处跳转文末名片获取
实现基本流程:
一. 数据来源分析
-
明确需求
-
明确采集网站以及数据
数据: 视频基本信息: 标题 播放量 评论 弹幕 上传时间 …
-
-
抓包分析
-
打开开发者工具: F12 / 右键点击检查选择network
-
点击网页下一页 --> XHR 第一条数据包就是我们需要的内容
-
二. 代码实现步骤 <固定四个大步骤>
-
发送请求, 模拟浏览器对于url地址发送请求
请求链接: 数据包链接
-
获取数据, 获取服务器返回响应数据
开发者工具: response
-
解析数据, 提取我们需要的数据内容
视频基本信息
-
保存数据, 把信息数据保存表格文件
代码展示:
导入模块
import time
import requests
# 导入格式化输出模块
from pprint import pprint
import datetime
import csv
import hashlib
f = open('信息.csv', mode='w', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames