支持正版,从我做起!
最近发售的游戏不少,刚好又在学习爬虫,于是就灵光一闪去3DM爬了个单机大作排行榜TOP200,过程代码结果如下。
首先,我们需要知道我们要爬取哪些信息,看到排行榜里的游戏项可以确定有名字、发售日期、评分和网址还有其他一些描述信息这五项内容。
打开Chrome开发者工具,找到五项信息对应的标签,可以发现发售日期和其他一些信息都包含在一个
- 表格中,可以将发售日期单独提取出来作为一项数据。
然后分析一下单机大作列表的url,发现页码和zq有关,zq_a就是第a页,而第一页zq和zq_1显示的是一个页面,而每个页面包含20个游戏信息(让我们忽略第一个真-3DM大作),爬取前10页得到TOP210的游戏信息。
接下来就是代码的编写,代码分为数据的爬取与清洗和数据的入库两个基本函数,非常简单。
import requests
import pymongo
import csv
import xlwt
from bs4 import BeautifulSoup
base_url = 'https://www.3dmgame.com/games/zq_'
headers = {
&