版权声明:本文为博主原创文章,转载 请注明出处: https://blog.csdn.net/sc2079/article/details/82016583
10月18日更:MOOC课程信息D3.js动态可视化
9月2日更:中国大学MOOC课程信息之数据分析可视化二
9月1日更:关于MOOC的课程信息数据分析,参看:中国大学MOOC课程信息之数据分析可视化一
!!!注意:当前代码已过时(网站有所改动),仅做思路参考。
-
写在前面
暑假没事玩玩爬虫,看到中国大学MOOC便想爬取它所有课程信息。无奈,它不是静态网页,课程数据都是动态加载的。而爬取动态页面目前来说有两种方法:
- 分析页面Ajax请求
- selenium模拟浏览器行为
可能方法不正确,我尝试了前者发现行不通,便采用了后者。由于第一次写博客且自己编程能力有限,文中有不足或需要改进的地方请不吝赐教。
-
环境配置及模块安装
编译环境: Python3.6 、Spyder
依赖模块:pymysql,selenuim,bs4,re等
另外还要下载chromedriver并配置,参考这篇文章
-
简要分析流程
-
主页分析
主页上便有课程类别,可以将其保存为字典,通过不同课程类别便可到达相应课程类别界面。
subjects&#