Selenium爬取MOOC网课程信息

最新推荐文章于 2023-11-29 17:21:51 发布

Mr_Fengyy

最新推荐文章于 2023-11-29 17:21:51 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/weixin_41030360/article/details/80891747

版权

近期在写一份关于大数据相关的作业，需要搜索近年来市面上关于大数据的书籍信息和课程信息。其中一位同学负责在当当网上爬取书籍信息，我就负责爬取MOOC网的课程信息。

刚开始的时候，以为MOOC网作为一个公益性网站，安全性不会那么高，因此会比较好爬。然而我还是太天真了，网站上一大批JavaScript让我不知所措。好在经过一段时间的探索，终于能够成功爬取了。

1. 网站分析

打开MOOC官网，在搜索框输入“大数据”关键词，发现返回了99条数据（当时的情况），也就是说，有99个关于大数据的课程。

但是，只有课程列表是不行的。就像爬取淘宝网站的时候，获取到了商品列表，还需要进入到商品的详情页面，然后抓取我们需要的信息。在这里，我们同样需要这样的方法。

但是，通过Google浏览器的检查功能可以发现，你几乎无法在课程页面获取什么东西——因为几乎都是动态变化的。我试图获取每个课程上面的超链接，然后进入到具体的详情页面，但是很显然直接使用requests方法是不行的。

后来经过同学指点发现此处需要通过post方法，获取到response，返回的response里面才具有我们需要的详情页面的信息（其实也就是每个课程的id，通过该id可以构造详情页面）

2. 代码设计

2.1 获取课程id

经过上面的分析，我首先找到了商品id存储的页面，如下图所示,我发现当我点击下一页的时候，会多出图中红色方框部分的网址，说明该网址是我请求的response，点击preview查看预览也印证了我的猜测。

问题搞清楚了，下面使用requests包的post函数发送请求，然后分析获取到的response。

import requests
import urllib.parse as up

#准备进行搜索的关键词
keywords = ['大数据','机器学习','数据挖掘','数据科学','人工智能']

#转换成URL编码
def quote(x):
    return up.quote(x)
#转换编码
keywords = list(map(quote,keywords))

#URL前缀
startUrl = "http://www.icourse163.org/search.htm?search="

#构造URL
urls = []
for

最低0.47元/天解锁文章

Mr_Fengyy

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Selenium爬取MOOC网课程信息

近期在写一份关于大数据相关的作业，需要搜索近年来市面上关于大数据的书籍信息和课程信息。其中一位同学负责在当当网上爬取书籍信息，我就负责爬取MOOC网的课程信息。刚开始的时候，以为MOOC网作为一个公益性网站，安全性不会那么高，因此会比较好爬。然而我还是太天真了，网站上一大批JavaScript让我不知所措。好在经过一段时间的探索，终于能够成功爬取了。1. 网站分析打开MOOC官网，...
复制链接

扫一扫