爬虫实现爬取牛客网数据结构试题

最新推荐文章于 2024-06-13 13:58:03 发布

Xurui_Luo

最新推荐文章于 2024-06-13 13:58:03 发布

阅读量2k

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/Xurui_Luo/article/details/104651041

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 目标

爬取牛客网上关于《数据结构》的试题。
试题链接

进入网页可以看到，如果选择《数据结构》的某个知识点组卷，一次最多只能出30题。
在这里插入图片描述
因此，想法就是用程序一次将30题全部爬下。随后生成新的试卷再进行爬虫。

2 实现思路

2.1 最初思路

访问第一题的url
爬取试题
找到下一题的url后，重复1.2操作，直到爬完30题

很遗憾，打开devtools看试题页的元素，发现必须先登录才能有试题页面，
因此问题来到了登录上。

用devtools看登录过程，没有相应的帐号、密码信息，因此无法用帐号密码post方式登录。但是注意到登录页有cookie，如下图右侧，故可采用cookie方式登录。
在这里插入图片描述

另外发现该页面有全部试题的url，因此新的方案为

2.2 新思路

通过cookie访问第一题url，获得全部试题的url
依次访问每题的url，爬取

3 代码

# -*- coding: utf-8 -*

"""
目标，爬取全部的题目以及答案
1. 利用cookie访问网页，记录全部的题目id并记录在内存中 需要把标签的属性记下来
2. 依次访问这些题目的网页，爬取问题选项和答案
3. 存储到本地文件
"""

import requests
from lxml import etree
import re

def pageid(url, cookie):


    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
        'Cookie': cookie
    }

    session = requests.Session()

    response = session.get(url, headers=headers)

    # print(response.text)

    selector = etree.HTML(response.text)

    pagelinks = []

    for i in range(30):
        apageid = selector.xpath('/html/body/div[1]/div[2]/div[2]/div[1]/ul/li['+str(i+1)+']/a/@href')


        pagelinks.append('https://www.nowcoder.com'+"".join(apageid))

        # print(pagelinks)

    return pagelinks

def access(urls, cookie):

    for url in urls:

        print('\n'+url)

        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
            'Cookie': cookie
        }

        session = requests.Session()

        response = session.get(url, headers=headers)


        selector = etree.HTML(response.text)

        question = re.sub("_计算机基础-链表,数组专项练习_牛客网|<span>|</span>|\n", '', selector.xpath('/html/head/title/text()')[0])

        rightans = re.findall("[ABCD]", selector.xpath('/html/body/div[1]/div[2]/div[2]/div[3]/h1/text()')[0])[0]

        print(question)

        print(rightans)
        for i in range(1, 5):

            content = selector.xpath('/html/body/div[1]/div[2]/div[2]/div[3]/div['+str(i)+']//text()')
            if len(content)<5 and content:

                answer = chr(ord('A')+(i-1))+':'+content[1]
                print(answer)

if __name__ == '__main__':

    cookie = 'NOWCODERUID=C1F47CBEB368100B259B00921BDE1A9C; NOWCODERCLINETID=2987429E46984C805C4B748D83F50505; Hm_lvt_a808a1326b6c06c437de769d1b85b870=1582727926,1582951795,1583150899,1583296142; callBack=%2Ftest%2Fquestion%2Fdone%3Ftid%3D31053807%26qid%3D171569%26headNav%3Dwww; Hm_lpvt_a808a1326b6c06c437de769d1b85b870=1583298317; t=2B8379AABDEFC411E988236C916DCA4B; SERVERID=11b18158070cf9d7800d51a2f8a74633|1583298320|1583296137'

    urls = pageid('https://www.nowcoder.com/test/question/done?tid=31053807&qid=171569', cookie)
    # print(urls)
    access(urls, cookie)

4 结果

运行结果的部分截图如下

在这里插入图片描述

Xurui_Luo

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
爬虫实现爬取牛客网数据结构试题

1 目标爬取牛客网上关于《数据结构》的试题。试题链接进入网页可以看到，如果选择《数据结构》的某个知识点组卷，一次最多只能出30题。因此，想法就是用程序一次将30题全部爬下。随后生成新的试卷再进行爬虫。2 实现思路2.1 最初思路访问第一题的url爬取试题找到下一题的url后，重复1.2操作，直到爬完30题很遗憾，打开devtools看试题页的元素，发现必须先登录才能有试题...
复制链接

扫一扫

专栏目录