python3 爬虫 urllib +采用bs4(三)批量爬取慕课网免费课程及课程详细章节信息

爬取课程信息,可自定义查找范围
首先声明,不是爬取课程视频内容,只是爬取标题和章节信息
当前(截止于2019/10/15)慕课网免费课程编号总共就只到了1189,在这之后的都会返回404,所以第一个输入填0,第二个输入填1189即可
直接上完整代码,看着可能很复杂,但仔细剖析就能明白,复制过去的代码可能运行失败,原因多半是因为我在改文章内容时缩进混用了tab和4个空格,自行按提示修正即可

from urllib import request
from bs4 import BeautifulSoup
import time
import sys
import re
import os

def mkdir(path):
    # 去除首位空格
    path=path.strip()
    # 去除尾部 \ 符号
    path=path.rstrip("\\")
    # 路径是否存在
    isExists=os.path.exists(path)
    if not isExists:
        # 不存在则创建目录
        os.makedirs(path) 
        print('创建成功:',path)
        return True
    else:
        print ('目录已存在:',path)
        return False
        
#将文件名非法字符转换为空格
#对每个文件名执行这段代码,因为获取到的文件名非法会报OSError
#如课程343
def validateTitle(title):
	#新增\t\n,1166号课程末尾带\t会中断程序
    rstr = r"[\/\\\:\*\?\"\<\>\|\t\n]"  # '/ \ : * ? " < > |'
    # 替换为空格
    new_title = re.sub(rstr, " ", title)  
    return new_title
#爬取出现未考虑到的异常将中断程序,用a方式写入保证处理完异常下次运行
#不覆盖原有数据
def get_not_found_list(nflist):
    f = open("不存在的课程.txt",'a')
    for l in nflist:
        f.write(l)
        f.write("\n")
    f.write("---------------------------------------------------------\n")
    f.close()

def get_not_available_list(nalist):
    f = open("已下架的课程.txt",'a')
    for l in nalist:
        f.write(l)
        f.write("\n")
    f.write("---------------------------------------------------------\n")
    f.close()

def get_available_list(alist):
    f = open("可以正常学习的课程.txt",'a')
    for l in alist:
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值