爬取课程信息,可自定义查找范围
首先声明,不是爬取课程视频内容,只是爬取标题和章节信息
当前(截止于2019/10/15)慕课网免费课程编号总共就只到了1189,在这之后的都会返回404,所以第一个输入填0,第二个输入填1189即可
直接上完整代码,看着可能很复杂,但仔细剖析就能明白,复制过去的代码可能运行失败,原因多半是因为我在改文章内容时缩进混用了tab和4个空格,自行按提示修正即可
from urllib import request
from bs4 import BeautifulSoup
import time
import sys
import re
import os
def mkdir(path):
# 去除首位空格
path=path.strip()
# 去除尾部 \ 符号
path=path.rstrip("\\")
# 路径是否存在
isExists=os.path.exists(path)
if not isExists:
# 不存在则创建目录
os.makedirs(path)
print('创建成功:',path)
return True
else:
print ('目录已存在:',path)
return False
#将文件名非法字符转换为空格
#对每个文件名执行这段代码,因为获取到的文件名非法会报OSError
#如课程343
def validateTitle(title):
#新增\t\n,1166号课程末尾带\t会中断程序
rstr = r"[\/\\\:\*\?\"\<\>\|\t\n]" # '/ \ : * ? " < > |'
# 替换为空格
new_title = re.sub(rstr, " ", title)
return new_title
#爬取出现未考虑到的异常将中断程序,用a方式写入保证处理完异常下次运行
#不覆盖原有数据
def get_not_found_list(nflist):
f = open("不存在的课程.txt",'a')
for l in nflist:
f.write(l)
f.write("\n")
f.write("---------------------------------------------------------\n")
f.close()
def get_not_available_list(nalist):
f = open("已下架的课程.txt",'a')
for l in nalist:
f.write(l)
f.write("\n")
f.write("---------------------------------------------------------\n")
f.close()
def get_available_list(alist):
f = open("可以正常学习的课程.txt",'a')
for l in alist: