python爬取steam250游戏详细信息和下载游戏介绍视频

本文介绍了如何使用Python爬虫技术抓取并解析Steam250网站的前30名游戏信息,包括名称、图片、发行日期、分类、评分、描述及部分游戏视频。通过BeautifulSoup和Selenium库实现了网页内容抓取和动态页面交互。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬取网页地址
https://steam250.com/2020
网页详情
在这里插入图片描述
爬取的信息

  • 游戏名称
  • 游戏图片地址
  • 游戏发行日期
  • 游戏分类
  • 游戏评分
  • 游戏描述
  • 游戏介绍视频
    这里游戏描述需要点击单个游戏介绍界面才能看到
    在这里插入图片描述
    游戏视频则需要点击游戏图片才能查看
    在这里插入图片描述

找到爬取数据所属的html元素
在这里插入图片描述
爬取思路
游戏名称 游戏图片地址 游戏发行日期 游戏分类 游戏评分这些属性可以通过抓取指定html块可以拿到,游戏详情的话可以通过两个思路来实现,一个是通过爬虫爬取这些游戏详情的地址,之后访问这些地址,另一种是编写脚本点击跳转至游戏详情页面,之后再跳回主界面,这里我选用了第二种方法,同样游戏视频我也是编写脚本写的

代码
这里我只爬取了前30名游戏信息,太多了会封ip(主要是由于下载视频)
1.启动webdriver,并获取html源码

def openFireFoxDiver():
    url = "https://steam250.com/2020"
    driver = webdriver.Firefox()
    driver.get(url)
    time.sleep(5)
    html_page = driver.page_source.encode('utf-8')  # 取得网页的源代码
    return [html_page,driver];

2.保存html源码
这里我怕突然有一天网站关闭了我先备份一波源码

# path是存放地址
def saveHtmlCode(html,path):
    file = open(path, "wb")
    file.write(html)

3.获取游戏详情

def getsteam150Info(path,driver):
    hot_game_list = []
    html = EpicGamePrice.getHtmlCode(path)
    html.decode();
    html_page_soup = BeautifulSoup(html, 'html.parser')
    num = 1;
    succ = 0;
    game_nameAndMp4 = {
   
   'name': [], 'mp4': []}

    while succ<30:
        # 获取每个游戏 id
        gameInfo = html_page_soup.find(
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值