python3 爬虫 urllib +采用bs4（三）批量爬取慕课网免费课程及课程详细章节信息

最新推荐文章于 2021-04-01 11:12:15 发布

qq_36376711

最新推荐文章于 2021-04-01 11:12:15 发布

阅读量465

点赞数

分类专栏： python 文章标签：爬虫 urllib

本文链接：https://blog.csdn.net/qq_36376711/article/details/102571508

版权

爬取课程信息，可自定义查找范围
首先声明，不是爬取课程视频内容，只是爬取标题和章节信息
当前（截止于2019/10/15）慕课网免费课程编号总共就只到了1189，在这之后的都会返回404，所以第一个输入填0，第二个输入填1189即可
直接上完整代码,看着可能很复杂，但仔细剖析就能明白，复制过去的代码可能运行失败，原因多半是因为我在改文章内容时缩进混用了tab和4个空格，自行按提示修正即可

from urllib import request
from bs4 import BeautifulSoup
import time
import sys
import re
import os

def mkdir(path):
    # 去除首位空格
    path=path.strip()
    # 去除尾部 \ 符号
    path=path.rstrip("\\")
    # 路径是否存在
    isExists=os.path.exists(path)
    if not isExists:
        # 不存在则创建目录
        os.makedirs(path) 
        print('创建成功:',path)
        return True
    else:
        print ('目录已存在:',path)
        return False
        
#将文件名非法字符转换为空格
#对每个文件名执行这段代码，因为获取到的文件名非法会报OSError
#如课程343
def validateTitle(title):
	#新增\t\n,1166号课程末尾带\t会中断程序
    rstr = r"[\/\\\:\*\?\"\<\>\|\t\n]"  # '/ \ : * ? " < > |'
    # 替换为空格
    new_title = re.sub(rstr, " ", title)  
    return new_title
#爬取出现未考虑到的异常将中断程序，用a方式写入保证处理完异常下次运行
#不覆盖原有数据
def get_not_found_list(nflist):
    f = open("不存在的课程.txt",'a')
    for l in nflist:
        f.write(l)
        f.write("\n")
    f.write("---------------------------------------------------------\n")
    f.close()

def get_not_available_list(nalist):
    f = open("已下架的课程.txt",'a')
    for l in nalist:
        f.write(l)
        f.write("\n")
    f.write("---------------------------------------------------------\n")
    f.close()

def get_available_list(alist):
    f = open("可以正常学习的课程.txt",'a')
    for l in alist:

最低0.47元/天解锁文章

qq_36376711

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python3 爬虫 urllib +采用bs4（三）批量爬取慕课网免费课程及课程详细章节信息

爬取1-1000号课程信息直接上完整代码,看着可能很复杂，但仔细剖析就能明白from urllib import requestfrom bs4 import BeautifulSoupimport timeimport sysimport reimport osdef mkdir(path): # 去除首位空格 path=path.strip() # 去...
复制链接

扫一扫