Python3 + BeautifulSoup 爬取Steam热销商品数据

本文介绍了使用Python3和BeautifulSoup库爬取Steam热销商品数据的过程,通过列表避免重复爬取,并利用zip()函数处理多表遍历。发现Steam最后10页存在重复数据,非防爬机制所致。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这次用了BeautifulSoup库来爬取Steam的热销商品,BeautifulSoup更侧重的是从页面的结构解析,
根据标签元素等来爬取数据,这次遇到两个问题:
1.Steam热销商品列表经常有重复的,所以我建了一个列表,把爬到的数据存进去,每次爬的时候都校验跟列表里有没有重复,有的话就跳过,防止重复爬取。
2.我需要同时遍历两个表,找到了zip()函数解决方案,下面简单介绍一下。

zip()

大家看下面的实例应该就能明白。

xs = ['我是','你是','他是']
ys = ['第一','第二','第三']

for x, y in zip(xs,ys):
	print(x+y)

输出结果如下:

我是第一
你是第二
他是第三

下面是完整爬虫代码,使用的库请自行安装不另做教学:

from bs4 import BeautifulSoup
import xlwt,os,time,requests

page = 1 #起始页数
total_pages = 3 #总页数,爬10页请设定为11
count = 1 #每抓到一次游戏名称增加一次,用来排序
pool=[] 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值