18数据接口和selenium

一、数据接口

在爬取数据之前可以先找对应网站的数据接口,如果有数据接口则请求数据接口对应的网址,没有则用requests。
找数据接口的流程如下:

浏览器控制台--network--Fetch/XHR--刷新页面--左下角 xxxx.js--右边preview(具体数据)/headers(地址)

请添加图片描述

示例:获取英雄联盟英雄某个英雄的皮肤

拿到数据接口的地址,对地址发送请求然后获取数据

import requests
response=requests.get('https://game.gtimg.cn/images/lol/act/img/js/hero/1.js')
result=response.json()
for i in result['skins']:
    # 对图片地址发送请求
    if i['iconImg']:
        content = requests.get(i['iconImg']).content
    else:
        content = requests.get(i['chromaImg']).content
    # 将图片写入文件
    name=i['name']
    with open(f'file1/{name}.jpg','wb') as f:
        f.write(content)
示例:获取英雄联盟所有英雄的皮肤
import requests,os
resp=requests.get('https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js').json()
j=1
for i in resp['hero']:
    # 每个英雄的名字,id
    h_name = i['name']
    id = i['heroId']
    # 每个英雄的详细信息
    resp1 = requests.get(f'https://game.gtimg.cn/images/lol/act/img/js/hero/{id}.js').json()
    # print(f'https://game.gtimg.cn/images/lol/act/img/js/hero/{id}.js')
    # 下载图片--创建文件夹
    if not os.path.exists(f'file2/{h_name}'):
        os.mkdir(f'file2/{h_name}')
    # 下载文件
    for k in resp1['skins']:
        # 对图片地址发送请求
        if k['iconImg']:
            content = requests.get(k['iconImg']).content
        else:
            content = requests.get(k['chromaImg']).content
        # 将图片写入文件
        name = k['name']
        with open(f'file2/{h_name}/{name}.jpg', 'wb') as f:
            f.write(content)
    j += 1
    # j 用于控制英雄的个数,下载所有英雄的皮肤时间太长,暂定5个用于测试代码的可行性
    if j >= 6:
        break
print('下载完成')
二、用代码判断和创建文件夹
import  os
if not os.path.exists('file2/abc'):
    os.mkdir('file2/abc')
三、selenium的用法
1、selenium库安装

请添加图片描述

2、驱动器下载

查看浏览器的版本。下载与之对应的最接近的版本
在这里插入图片描述
下载之后解压,将文件放入与python.exe同一文件之下
在这里插入图片描述

3、selenium的基本用法
  • 创建浏览器对象b=Chrome()
  • 打开网页b.get(url)
  • 获取网页源代码 html=b.page_source
  • 关闭网页b.close()
from selenium.webdriver import Chrome
# 1、创建浏览器对象(浏览器是全局变量,不会自动关闭)
b=Chrome()
# 2、打开网页
# b.get('https://movie.douban.com/top250')
b.get('https://channel.chinanews.com.cn/cns/cl/gn-gcdt.shtml')
# 3、获取网页源代码--获取到的一定是页面中加载出来的
response=b.page_source
print(response)
# 4、关闭浏览器
b.close()
4、selenium控制浏览器的基本行为
  • 输入框输入内容
    • 找到输入框
    • 输入内容
  • 点解按钮
    • 找到点击按钮
    • 点击
  • 切换选项卡
from selenium.webdriver import Chrome
from time import sleep
b=Chrome()
b.get('https://www.jd.com')
# 1、输入框输入内容
# 1.1 找到输入框
input_tag=b.find_element_by_id('key')

# 1.2 输入内容
input_tag.send_keys('电脑\n')
sleep(2)
# 2、点击按钮
# 2.1 找到需要点击的标签
click_tag=b.find_element_by_css_selector('#navitems-group2 .b')

# 2.2 点击标签
click_tag.click()
input('是否结束')
b.close()
# 3、切换选项卡
	----未完待续,单独说明
5、selenium之切换选项卡
  • 基本操作 切换界面(打开一个新的选项卡)
  • 切换选项卡到第二个页面–页面解析–关闭当前页面
  • 回到上一个页面

注意: selenium中,浏览器对象(b)默认指向一开始打开的选项卡,除非用代码切换,否则浏览器对象指向的选项卡不会变

示例:选项卡具体流程
from selenium.webdriver import Chrome
from time import sleep
from bs4 import BeautifulSoup

# 1.基本操作
b = Chrome()  # 创建浏览器
b.get('https://www.cnki.net/')  # 打开中国知网
search_tag = b.find_element_by_id('txt_SearchText')  # 获取输入框
search_tag.send_keys('数据分析\n')  # 输入框输入"数据分析',然后按回车
sleep(1)  # 切换界面最后做一个等待操作
# 获取需要点击的标签:如果拿到标签后需要点击或者输入,必须通过浏览器获取标签
all_result = b.find_elements_by_css_selector('.result-table-list .name>a')

# 点击第一个结果(打开一个新的选项卡)
all_result[0].click()
sleep(1)

# 2. 切换选项卡
# 注意: selenium中,浏览器对象(b)默认指向一开始打开的选项卡,除非用代码切换,否则浏览器对象指向的选项卡不会变
# #1)获取当前浏览器上所有的窗口(选项卡)∶浏览器.window_handles
# 2)切换选项卡
b.switch_to.window(b.window_handles[-1])
# 3)解析内容
soup = BeautifulSoup(b.page_source, 'lxml')
result = soup.select_one('#ChDivSummary').text
print(result)
b.close()  # 关闭当前指向的窗口,窗口关闭后浏览器对象的指向不会发生改变

# 3、回到上一个页面
# 回到第一个窗口,点击下一个搜索结果
b.switch_to.window(b.window_handles[0])
all_result[1].click()
sleep(1)
b.switch_to.window(b.window_handles[-1])
soup = BeautifulSoup(b.page_source, 'lxml')
result = soup.select_one('#ChDivSummary').text
print(result)
b.close()
练习1:获取京东一个商品的名称和价格
"""
Author:ting
date:2022/8/15 15:14
月薪过万
"""
import csv

from selenium.webdriver import Chrome
from bs4 import BeautifulSoup
from time import sleep
b = Chrome()  # 创建浏览器对象
b.get('https://www.jd.com')   # 打开网页
# 控制浏览器动作
input_tag = b.find_element_by_id('key')
page1 = input_tag.send_keys('手机\n')
sleep(4)
# 解析第一页的数据
html = b.page_source
soup = BeautifulSoup(html, 'lxml')
all_li = soup.select('#J_goodsList>ul>li')
# print(all_li)
new_list = []
for li in all_li:
    price = li.select_one('.p-price i').text
    name = li.select_one('.p-name em').text
    new_list.append([name, price])
sleep(5)
# 点击下一页
click_tag=b.find_element_by_class_name('pn-next')
click_tag.click()
html=b.page_source
# 解析下一页的数据
soup = BeautifulSoup(html, 'lxml')
all_li = soup.select('#J_goodsList>ul>li')

for li in all_li:
    name = li.select_one('.p-name em').text
    price = li.select_one('.p-price i').text
    new_list.append([name, price])
sleep(5)
b.close()
with open('file3/手机.csv', 'w', encoding='utf-8',newline='') as f:
    writer = csv.writer(f)
    writer.writerow(['手机名字', '价格'])
    writer.writerows(new_list)
    # writer.writerows(new_list1)
练习2:选项卡的实战
import csv

from bs4 import BeautifulSoup
from selenium.webdriver import Chrome
from time import sleep


# 解析内容的函数
def analysis_data(html: str):
    soup = BeautifulSoup(html, 'lxml')
    try:
        result = soup.select_one('#ChDivSummary').text
    except AttributeError:
        result=' '
    return result


b = Chrome()
b.get('https://www.cnki.net/')
input_tag = b.find_element_by_class_name('search-input')
input_tag.send_keys('数据分析\n')
sleep(2)
# 获取需要点击的标签
all_result = b.find_elements_by_css_selector('.result-table-list .name>a')
new_list=[]
for i in all_result[:3]:
    i.click()
    b.switch_to.window(b.window_handles[-1])
    result = analysis_data(b.page_source)
    new_list.append([result])
    b.close()
    b.switch_to.window(b.window_handles[0])
    sleep(1)
print(new_list)

# 点击下一页并解析数据
click_tag = b.find_element_by_id('PageNext')
click_tag.click()
all_result = b.find_elements_by_css_selector('.result-table-list .name>a')
new_list1=[]

for i in all_result:
    i.click()
    b.switch_to.window(b.window_handles[-1])
    result = analysis_data(b.page_source)
    new_list1.append([result])
    b.close()
    b.switch_to.window(b.window_handles[0])
    sleep(1)
sleep(1)
with open('file3/摘要.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.writer(f)
    writer.writerows(new_list)
    # writer.writerows(new_list1)
b.close()
6、页面滚动

在有些页面中,需要滚动页面才会加载后续数据,因此在获取页面数据的时候需要用到页面自动滚动操作

在指定页面中,要先滚动页面,加载完成页面的数据才能获取页面内容,这样才不至于内容缺失

执行滚动操作   执行JS中滚动代码:window.scrollBy(x方向偏移量,y方向偏移量)
b.execute_script('window.scrollBy(0,800)')

示例:

from selenium.webdriver import Chrome
from time import sleep
from bs4 import BeautifulSoup
b=Chrome()
b.get('https://www.jd.com')
b.find_element_by_id('key').send_keys('手机\n')
sleep(1)

for i in range(6):
    b.execute_script('window.scrollBy(0,600)')
    sleep(2)
print('----------------华丽的分割线----------------')
soup=BeautifulSoup(b.page_source,'lxml')
goods_list=soup.select('#J_goodsList>ul>li')
print(len(goods_list))
7、selenium的基本配置

在用selenium爬取数据的过程中,浏览器上面有自动测试工具的提示,这个可以取消

有些网站可能因为图片过多而导致加载缓慢,有个操作可以不让该网站加载完所有图片

from selenium.webdriver import Chrome,ChromeOptions
options=ChromeOptions()
# 1、取消测试提示
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 2、取消图片加载
options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})

b=Chrome()
b.get('https://www.jd.com')
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
### 回答1: Python Selenium 是一个功能强大的自动化测试工具,它可以模拟用户在浏览器中的行为,并且可以用来获取接口数据。要使用Python Selenium获取接口数据,可以按照以下步骤操作: 1. 安装Python Selenium库: 在命令行中运行`pip install selenium`,可以安装最新版本的Python Selenium库。 2. 下载并配置浏览器驱动: Selenium需要一个浏览器驱动来控制浏览器。根据自己使用的浏览器,下载对应的驱动并将其添加到系统的环境变量中。 3. 导入相关库和设置浏览器: 在Python脚本中导入Selenium库,并根据需要选择要使用的浏览器驱动,例如ChromeDriver。 示例代码如下: ```python from selenium import webdriver # 配置浏览器驱动 driver = webdriver.Chrome() ``` 4. 打开需要获取数据接口链接: 使用Selenium打开需要获取数据接口链接,可以使用`driver.get(url)`方法。 示例代码如下: ```python url = "https://api.example.com/data" driver.get(url) ``` 5. 获取接口数据: 一旦接口链接加载完成,可以使用`driver.page_source`属性获取页面的源代码。接口数据通常以JSON格式返回,你可以使用Python的JSON库来解析数据。 示例代码如下: ```python import json json_data = json.loads(driver.page_source) print(json_data) ``` 6. 关闭浏览器: 当你完成数据获取后,记得关闭浏览器驱动,以释放资源。 示例代码如下: ```python driver.quit() ``` 通过以上步骤,你可以使用Python Selenium获取接口数据。请记住,Selenium是一个强大的自动化测试工具,获取接口数据只是其众多功能之一。如果只是简单的获取接口数据,还有其他更轻量的库可以选择,比如Requests库。 ### 回答2: Python的Selenium库可以用于模拟浏览器操作,从而获取接口数据。下面是使用Python和Selenium获取接口数据的步骤: 1. 首先,需要安装Python的Selenium库。可以使用pip命令来安装,命令为:`pip install selenium`。 2. 在Python脚本中导入Selenium库和其他必要的库,例如:`from selenium import webdriver`。 3. 创建一个浏览器实例,例如使用Chrome浏览器:`driver = webdriver.Chrome()`。 4. 使用浏览器打开需要获取数据接口URL,可以使用`driver.get(url)`方法来实现。 5. 等待接口数据加载完成。如果接口是异步加载的,可能需要等待一段时间才能获取到数据。可以使用`time.sleep()`方法进行等待。 6. 获取接口数据。可以使用Selenium提供的方法来查找页面元素并提取数据,例如使用`driver.find_element_by_xpath()`或`driver.find_element_by_css_selector()`方法来找到需要的元素。 7. 提取数据。一旦找到了需要的元素,可以使用元素的属性或方法来提取数据,例如使用`element.text`来获取元素的文本内容。 8. 关闭浏览器。使用`driver.quit()`方法来关闭浏览器。 以上就是使用Python和Selenium获取接口数据的基本步骤。根据接口的具体情况,可能需要进行一些额外的处理和逻辑来准确地获取到需要的数据。 ### 回答3: Python中可以使用Selenium库获取接口数据Selenium是一个用于自动化浏览器操作的库,在这里我们可以利用它模拟浏览器访问接口并获取数据。 首先,我们需要安装Selenium库。可以使用pip命令在命令行终端中执行以下命令进行安装: ``` pip install selenium ``` 安装完成后,需要安装一个浏览器驱动,根据所使用的浏览器型号和版本下载相应的驱动。例如,如果使用Chrome浏览器,可以下载ChromeDriver驱动。将驱动文件添加到系统环境变量中,或者将其放置在可执行文件所在的目录下。 接下来,我们可以编写Python代码来使用Selenium进行接口数据获取。首先,我们需要导入Selenium库和一些相关的模块: ```python from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.by import By ``` 然后,我们可以创建一个浏览器实例,并打开目标接口页面: ```python chrome_options = Options() chrome_options.add_argument('--headless') # 通过无头模式运行浏览器,不打开显示界面 driver = webdriver.Chrome(options=chrome_options) driver.get('http://example.com/api') # 替换为目标接口的URL ``` 接下来,我们可以使用Selenium提供的方法来定位和解析接口数据。例如,可以通过标签名、类名或XPath表达式来定位页面元素并获取其文本内容: ```python element = driver.find_element(By.XPATH, '//div[@class="data"]') # 替换为目标接口数据所在元素的XPath表达式 data = element.text print(data) ``` 最后,别忘了在程序结束时关闭浏览器实例: ```python driver.quit() ``` 这样,我们就可以使用Python和Selenium来获取接口数据了。但需要注意的是,使用Selenium获取接口数据可能会比直接使用requests等库效率低下,因为Selenium需要启动浏览器并加载页面。所以,如果接口数据比较简单且不需要解析动态生成的内容,最好还是使用requests等库进行接口调用和数据获取。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

兮知

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值