Python+BeautifulSoup实现网络教学平台学生测试题导出

又到期末考试了,需要做问卷星来复习了。
但是网络教学平台上的题太多了,没办法写了个脚本来提取。
通过此脚本生成的excel,可以直接导入问卷星生成问卷。

1. 使用步骤

  1. 登录网络教学平台
  2. F12 打开开发者工具->Application->cookie

在这里插入图片描述

  1. 找到 JSESSIONID 这个字段,把他的值复制下来。然后把代码中的JSEESIONID替换成你的
s = requests.get(url, headers={
	'cookie': 'JSESSIONID=2820553AF02867CBE9DB35273D032158'# 这里=后面的替换成你的sessionid
})
  1. 安装 pandas, requests, BeautifulSoup依赖
pip install beautifulsoup4 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple
  1. 复制你要爬取的测试结果页面(注意是结果页面!!就是已经答完,可以查看答案的那种结果页面)的URL网址,把测试名也带上去
fetch_all([
('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=84246354', '第二章测试题'),
('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=85256551', '第三章测试题'),
('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=91007573', '第五章测试'),
('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=91008411', '第六章测试'),
('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=91251387', '第七章测试'),
('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=91318025', '8237和DAC0832测试'),
])

2. 完整代码

import time

import pandas as pd
import requests
from bs4 import BeautifulSoup


def right_answer_convert(option_list: list):
    index_list = [i for i, item in enumerate(option_list) if '答案' in item]
    answer_tag_text = option_list[index_list[0]]
    for _ in index_list:
        option_list.remove(answer_tag_text)
    ret_answer = []
    for i, item in enumerate(index_list):
        ret_answer.append(chr(ord('A') + item - i - 1))
    return ''.join(ret_answer)


def fetch_one(url, save_file=''):
    s = requests.get(url, headers={
        'cookie': 'JSESSIONID=D916E34E743A99701B33AC73CDE3F6ED',
        'User-Agent':'Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit/533.17.9(KHTML,likeGecko)Version/5.0.2Mobile/8J2Safari/6533.18.5'
    })
    soup = BeautifulSoup(s.text, 'html.parser')
    question_raw_list = soup.find_all('div', class_='test_checkq_question_editorWrapper')
    ret_list = []
    for question_raw in question_raw_list:
        each_question = dict()
        each_question['type'] = '单选'
        each_question['title'] = question_raw.find('div', class_='title').text.strip()
        question_option = question_raw.find('div', class_='item')
        # print(question_option)
        if question_option is None:

            each_question['answer'] = question_raw.find('div', class_='rightAnswer_body').text.strip()
            print(each_question['answer'])
            if each_question['answer'] in ['T', 'F']:
                each_question['type'] = '判断题'
                each_question['answer'] = each_question['answer'].replace('T', '对').replace('F', '错')
                each_question['option'] = ['对', '错']
            else:
                each_question['type'] = '简答题'

        else:
            question_option = question_raw.find('div', class_='item').find_all('span')
            each_question['option'] = list(map(lambda x: x.get_text(), question_option))
            each_question['answer'] = right_answer_convert(each_question['option'])
            each_question['option'] = list(filter(lambda x: '答案' not in x, each_question['option']))
            each_question['type'] = '单选题' if len(each_question['answer']) == 1 else '多选题'
        ret_list.append(each_question)

    col_name_list = ['题型', '题目', '选项1', '选项2', '选项3', '选项4', '选项5', '正确答案', '答案解析', '分值']
    df = pd.DataFrame(columns=col_name_list)
    for i in ret_list:
        template = {
            '题型': i['type'],
            '题目': i['title'],
            '正确答案': i['answer'],
            '答案解析': '',
            '分值': '1'
        }
        if i['type'] not in ['判断题', '简答题']:
            for j, item in enumerate(i['option']):
                template['选项' + str(j + 1)] = item


        # df = df.append(template, ignore_index=True)
        df = pd.concat([df, pd.DataFrame(template, index=[0])], ignore_index=True)

    timestamp = str(int(time.mktime(time.localtime(time.time()))))
    df.to_excel('{}_{}.xlsx'.format(save_file, timestamp), index=False)
    # print(df)


def fetch_all(url_list):
    for i in url_list:
        fetch_one(i[0], i[1])

if __name__ == '__main__':
    fetch_all([
        ('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=84246354', '第二章测试题'),
        ('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=85256551', '第三章测试题'),
        ('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=91007573', '第五章测试'),
        ('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=91008411', '第六章测试'),
        ('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=91251387', '第七章测试'),
        ('https://eplat.imau.edu.cn/meol/test/stuQtestResult.do?testId=91318025', '8237和DAC0832测试'),
    ])
  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 7
    评论
### 回答1: Python爬虫是一种自动化程序,可以通过requests和beautifulsoup等库来获取网页信息,并使用pandas等工具对数据进行处理和分析。使用Python爬虫可以快速获取大量数据,帮助我们进行数据挖掘和分析。 ### 回答2: Python是一种强大的编程语言,在网络爬虫方面也有着广泛应用。requests、BeautifulSoup和Pandas就是其中的三个非常重要的工具,它们各自的功能和作用如下: Requests(请求):是一个Python中的HTTP库,可以轻松的发送HTTP请求,并且可以很容易地获取返回的内容。如果你想获取一个网页的HTML代码,你可以使用Requests库。你需要向requests.get()方法传递一个URL,然后它会返回一个response对象,可以通过response.text来获取文本内容。 BeautifulSoup(漂亮的汤):是Python一个解析HTML和XML文件的库,它可以从这些文件中提取有用的信息。所以,你可以使用BeautifulSoup来提取网页中的信息。通过BeautifulSoup库可以把一个已经读入python中的response响应文件对象进行分析,也就是通过一些HTML标签(soup.a/b/p/div),来获取我们想要的内容。 Pandas(熊猫):是一个强大的数据分析工具,其核心是用于数据处理和矩阵计算的高效核心数据结构Dataframe。使用Pandas库可以很容易地从文本文件中导入数据,然后进行数据清洗、规整、合并、并统计数据等等各类操作。下面我们详细介绍一下这些库的用法。 在进行数据抓取之前,我们首先需要对需要抓取的数据进行需求分析,即确定需要抓取的网站、需要抓取的数据点和格式,以及需要进行的数据处理方式和数据储存方式等。当我们完成了需求分析之后,就可以开始进行数据抓取了。 首先我们需要安装requests、BeautifulSoup和Pandas库: ```python pip install requests pip install BeautifulSoup4 pip install pandas ``` 然后我们可以使用以下代码,来展示如何进行数据抓取: ```python import requests from bs4 import BeautifulSoup import pandas as pd # 请求URL并将结果解析为HTML url = 'https://movie.douban.com/top250' resp = requests.get(url) html_data = resp.text soup = BeautifulSoup(html_data, 'html.parser') # 获取电影名称和评分信息 movie_list = soup.find_all('div', class_='hd') title_list = [movie.a.span.text for movie in movie_list] rating_list = [movie.find_next_siblings('div')[0].span.text for movie in movie_list] # 构建DataFrame并将结果保存为CSV文件 movie_df = pd.DataFrame({'title': title_list, 'rating': rating_list}) movie_df.to_csv('top250_movies.csv', index=False) ``` 通过以上代码,我们可以获取到豆瓣电影Top250的电影名称和评分信息,并将结果储存为CSV文件。 总之,requests、BeautifulSoup和Pandas是Python网络爬虫中非常常用的工具。使用这些库,我们可以轻松地进行数据抓取、数据提取、数据处理和数据储存等操作。同时,我们在进行爬虫之前,一定要注意合法性和尊重原网站的规则。 ### 回答3: Python是目前最流行的编程语言之一,其生态系统非常丰富,可以应用于各种领域。其中,爬虫是Python应用广泛的领域之一。在Python爬虫中,requests、beautifulsoup和pandas都是非常常用的库。 requests是一个用于HTTP请求的Python库,可以方便地发送网络请求,并且可以处理响应数据。在Python爬虫中,我们通常使用requests库下载网页内容。例如,我们可以使用requests库的get方法获取网页内容,如下所示: ``` import requests response = requests.get('http://www.baidu.com') print(response.text) ``` beautifulsoup是一个解析HTML和XML文档的Python库,可以方便地从网页中提取所需的数据。使用beautifulsoup库,我们可以方便地解析从网页中提取的数据,并进行数据清洗和处理。例如,我们可以使用beautifulsoup库的find_all方法查找特定标签中的文本内容,如下所示: ``` from bs4 import BeautifulSoup import requests response = requests.get('http://www.baidu.com') soup = BeautifulSoup(response.text, 'html.parser') print(soup.find_all('a')) ``` pandas是一个用于数据分析和处理的Python库,提供了许多有用的功能,例如读取、处理和分析数据。在Python爬虫中,我们通常使用pandas库来处理从网页中提取的数据,并将其保存到CSV文件或数据库中以供进一步分析。例如,我们可以使用pandas库的read_html方法读取HTML表格数据,并将其保存为CSV文件,如下所示: ``` import pandas as pd url = 'http://www.example.com' tables = pd.read_html(url) df = tables[0] df.to_csv('example.csv', index=False) ``` 综上所述,Python爬虫中的requests、beautifulsoup和pandas库是非常重要的工具,能够帮助我们方便地下载网页内容、提取数据和进行数据处理和分析。如果您有兴趣学习Python爬虫,那么这些库将是您必须掌握的重要工具之一。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

okfang616

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值