手把手学爬虫第三弹——爬取动态渲染的信息

2401_84010836

于 2024-04-10 21:28:21 发布

阅读量1k

点赞数 7

分类专栏：程序员文章标签：爬虫 okhttp

本文链接：https://blog.csdn.net/2401_84010836/article/details/137611847

版权

程序员专栏收录该内容

234 篇文章 2 订阅

订阅专栏

- - 1.分析网页请求
2.查看请求数据
3.请求数据
4.清洗数据
5.完整代码以及效果截图
6.分析总结
三、Selenium爬取动态数据
- - 1.安装Selenium以及浏览器驱动
2.Selenium使用准备
3.Selenium模块常用方法
- a.定位元素
b.鼠标操作
c.键盘操作
4.Selenium使用
5.分析总结
四、总结

一、什么是动态渲染信息？

========================================================================

学过网页开发相关的都知道很多网页数据并不是一次就返回全部，需要向服务器发送异步请求获取数据。在爬取此类信息的时候可以在浏览器中分析Ajax和JS请求的数据。本文我将和大家一起学习如何使用Ajax、Selenium和Splash技术获取动态数据。

二、Ajax数据爬取

======================================================================

Ajax是一种新的网页数据交互技术，它可以在页面不刷新、不更改页面链接的情况下与服务器交换数据并更新网页部分内容。

下面我们以原神官网的角色加载为例介绍。

1.分析网页请求

请添加图片描述

2.查看请求数据

这类数据一般会以json格式返回，为了方便查好数据，给大家推荐一个JSON数据在线格式化的网站。JSON在线格式化

请添加图片描述

3.请求数据

分析完请求以及返回的数据之后就可以开始怕取数据了，请求代码展示如下，返回数据正常。

-- coding: utf-8 --

@Time : 2021/9/18 16:03

@Author : KK

@File : 40_原神官网.py

@Software: PyCharm

import requests

headers = {

‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36’}

def get_data(url):

try:

response = requests.get(url=url, headers=headers)

print(response.json())

except:

pass

if name == ‘main’:

url = ‘https://ys.mihoyo.com/content/ysCn/getContentList?pageSize=20&pageNum=1&order=asc&channelId=150’

get_data(url)

请添加图片描述

4.清洗数据

对于返回的JSON格式的数据我们不需要任何选择器就可以直接获取，注意看清数据的层次结构，这样我们就可以一层层获取我们需要的数据了，获取的时候参照格式化后的代码即可。

格式化后的数据如下，显然我们需要的数据在list这个列表里面，所以我们先拿到这个list，然后去遍历list进一步取出里面的数据。

请添加图片描述

def get_data(url):

try:

yinpin = []

tu_url = None

jianjie = None

response = requests.get(url=url, headers=headers)

print(response.json())

res = response.json()

data_list = res[‘data’][‘list’] # 获取到list数据

print(data_list)

i = 1

for each in data_list:

print(‘正在爬取第{}个角色…’.format(i))

i = i + 1

id = each[‘id’] # 角色id

title = each[‘title’] # 角色名字

start_time = each[‘start_time’] # 角色上线时间

ext_list = each[‘ext’]

for item in ext_list:

if item[‘arrtName’] == ‘角色-PC端主图’: # 角色主图

tu_url = item[‘value’][0][‘url’]

elif item[‘arrtName’] == ‘角色-简介’: # 角色简介

jianjie = processing(item[‘value’])

elif item[‘arrtName’] == ‘角色-音频1-2’: # 可以使用正则匹配所有的

yinpin = item[‘value’][0][‘name’] + ‘||’ + item[‘value’][0][‘url’] # 一条配音链接

data = {

“角色ID”: id,

“角色名称”: title,

“上线时间”: start_time,

“高清图片”: tu_url,

“角色简介”: jianjie,

“角色配音”: yinpin,

}

print(data)

dict_infor.append(data)

print(dict_infor)

except ZeroDivisionError as e:

print(“except:”, e)

finally:

pass

5.完整代码以及效果截图

-- coding: utf-8 --

@Time : 2021/9/18 16:03

@Author : KK

@File : 40_原神官网.py

@Software: PyCharm

import requests

import re

import csv

import time

headers = {

‘user-agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36’}

dict_infor = []

处理字符串中的空白符，并拼接字符串

def processing(strs):

n = strs.replace(‘

’, ‘’).replace(‘
\n’, ‘’).replace(‘

\n’, ‘’).replace(‘\n’, ‘’) # 去除空字符

return n # 返回拼接后的字符串

def get_data(url):

try:

yinpin = []

tu_url = None

jianjie = None

response = requests.get(url=url, headers=headers)

print(response.json())

res = response.json()

data_list = res[‘data’][‘list’] # 获取到list数据

print(data_list)

i = 1

for each in data_list:

print(‘正在爬取第{}个角色…’.format(i))

i = i + 1

id = each[‘id’] # 角色id

title = each[‘title’] # 角色名字

start_time = each[‘start_time’] # 角色上线时间

ext_list = each[‘ext’]

for item in ext_list:

if item[‘arrtName’] == ‘角色-PC端主图’: # 角色主图

tu_url = item[‘value’][0][‘url’]

elif item[‘arrtName’] == ‘角色-简介’: # 角色简介

jianjie = processing(item[‘value’])

elif item[‘arrtName’] == ‘角色-音频1-2’: # 可以使用正则匹配所有的

yinpin = item[‘value’][0][‘name’] + ‘||’ + item[‘value’][0][‘url’] # 一条配音链接

data = {

“角色ID”: id,

“角色名称”: title,

“上线时间”: start_time,

“高清图片”: tu_url,

“角色简介”: jianjie,

“角色配音”: yinpin,

}

print(data)

dict_infor.append(data)

print(dict_infor)

except ZeroDivisionError as e:

print(“except:”, e)

finally:

pass

def get_url():

page_list = [150, 151, 324]

for i in page_list:

url = ‘https://ys.mihoyo.com/content/ysCn/getContentList?pageSize=20&pageNum=1&order=asc&channelId={}’.format(i)

get_data(url)

if name == ‘main’:

get_url()

保存到csv

with open(r’E:\python\pythonProject3\venv\Include\原神.csv’, ‘a’, encoding=‘utf-8’, newline=‘’) as cf:

writer = csv.DictWriter(cf, fieldnames=[‘角色ID’, ‘角色名称’, ‘上线时间’, ‘高清图片’, ‘角色简介’, ‘角色配音’])

writer.writeheader()

writer.writerows(dict_infor)

time.sleep(1)

print(‘爬取并保存完毕’)

请添加图片描述

6.分析总结

通过上面的代码可以发现，对于这类数据的爬取其实和requests请求方式差不多，主要区别在于我们获取到的数据不同，对于JSON数据我们同样进行适当的处理，获取我们想要的数据。

三、Selenium爬取动态数据

============================================================================

Selenium是浏览器自动化测试框架，是一个用于web测试的工具，可以直接在浏览器中运行，并可驱动浏览器执行一定的操作，例如点击、下拉等，还可以获取浏览器当前页面的源代码。

1.安装Selenium以及浏览器驱动

在pycharm搜索安装selenium模块或者直接控制台pip install selenium命令行安装。

由于该框架需要浏览器驱动，我们根据自己所使用的浏览器下载对应版本即可。

chrome浏览器驱动

Firefox浏览器驱动

IE浏览器驱动

2.Selenium使用准备

下载完成后将名称chromedriver.exe的文件提取出来放在与自己的python.exe文件同级的路径中。

请添加图片描述

3.Selenium模块常用方法

查阅官网文档

a.定位元素

| 模块名称 | 使用 |

| — | — |

| find_element_by_id() | |

| find_element_by_name() | |

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

46506ae54be168b93cf63939786134ca.png)

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上前端开发知识点，真正体系化！

如果你觉得这些内容对你有帮助，可以扫码获取！！！（备注Python）

2401_84010836

关注

7
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录