Coursera学科分类爬虫实例介绍

最新推荐文章于 2025-05-03 21:12:25 发布

Rocky_96

最新推荐文章于 2025-05-03 21:12:25 发布

阅读量894

点赞数

分类专栏：数据科学文章标签：爬虫 python 数据挖掘

本文链接：https://blog.csdn.net/weixin_42093587/article/details/121900908

版权

数据科学专栏收录该内容

11 篇文章

订阅专栏

Coursera学科分类爬虫实例介绍

背景
功能描述
定向爬虫可行性
程序的结构设计
实例编写
实例优化
附加说明

背景

Coursera、edX、Udacity是国外三大MOOC平台，在中国用户最多的应该是Coursera。不同平台对于学科的分类有所区别，本文仅对如何爬取Coursera中学科的分类做简要说明。

功能描述

目标：获取Coursera搜索页面中的学科分类，并将结果输出并保存
输入：Coursera平台搜索页面的URL链接，https://www.coursera.org/browse
输出：平台中的学科分类屏幕输出，另外保存为CSV文件
技术路线：requests‐bs4‐re

定向爬虫可行性

Robots协议的使用
对网络爬虫来说，建议遵守但是非约束性，网络爬虫可以不遵守，但是有法律风险。
在这里插入图片描述
接下来手动查看Coursera的Robots协议，如图

本实例属于小规模爬虫，数据量小，仅供学习使用，因此可以选择性遵守。

程序的结构设计

步骤1：从网络上获取网页内容；
步骤2：提取网页内容中关于学科分类的信息；
步骤3：将结果保存，并输出到屏幕显示。

实例编写

步骤1中采用通用的爬取网页框架

def getHTMLText(url, code='utf-8'):
    '''爬取网页的通用代码框架'''
    try:
        kv = {'User-agent': 'Mozilla/5.0'}
        r = requests.get(url, timeout=30, headers=kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print("爬取失败")

步骤2的重点在于分析从何处能迅速找到分类信息，（在界面处点击F12或者Fn+F12），如图：
在这里插入图片描述
具体的实现方法

def getCourselist(stockurl, ilt):
    html = getHTMLText(stockurl)
    soup = BeautifulSoup(html, 'html.parser')
    ul = soup.find_all('div', attrs={'class': re.compile('.*slick-slide.*')})
    res = []
    for i in range(len(ul)):
        all_a = ul[i].find_all('a')
        for i in range(len(all_a)):
            cour_name = all_a[i]['href']
            if ('browse' in cour_name):
                ans = re.findall("[^/]+(?!.*/)",
                                 cour_name)  #用正则表达去掉 “/browse/”
                if ans[0] not in res:
                    res.append(ans[0])
    return res

步骤3可以用Python中的csv库实现，当然也可以用pandas库实现。
全部的代码如下：

import requests
import regex as re
from bs4 import BeautifulSoup
import csv


def getHTMLText(url, code='utf-8'):
    '''爬取网页的通用代码框架'''
    try:
        kv = {'User-agent': 'Mozilla/5.0'}
        r = requests.get(url, timeout=30, headers=kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print("爬取失败")


def getCourselist(stockurl, ilt):
    ''' 从网页中获取分类信息'''
    html = getHTMLText(stockurl)
    soup = BeautifulSoup(html, 'html.parser')
    ul = soup.find_all('div', attrs={'class': re.compile('.*slick-slide.*')})
    res = []
    for i in range(len(ul)):
        all_a = ul[i].find_all('a')
        for i in range(len(all_a)):
            cour_name = all_a[i]['href']
            if ('browse' in cour_name):
                ans = re.findall("[^/]+(?!.*/)",
                                 cour_name)  #用正则表达去掉 “/browse/”
                if ans[0] not in res:
                    res.append(ans[0])
                # print(ans)
    return res


def save_to_csv(res):
    '''将学科分类结果存储到csv'''
    output_file = r"D:\CSDN\coursera_search\couseracatg.csv" #根据需要更改路径
    with open(output_file, 'w', newline='') as f:
        writer = csv.writer(f, dialect='excel')
        writer.writerow(res)
def printCourselist(courselist):
    '''显示分类结果'''
    print("Coursera里学科分类为：")
    for cu in courselist:
        print(cu)

def main():
    courseurl = "https://www.coursera.org/browse"
    courselist = []
    courselist = getCourselist(courseurl, courselist)
    save_to_csv(courselist)
    printCourselist(courselist)


if __name__ == "__main__":
    main()