scrapy爬取慕课网

最新推荐文章于 2023-02-21 09:21:29 发布

思念变成海h

最新推荐文章于 2023-02-21 09:21:29 发布

阅读量703

点赞数 1

分类专栏： Python 文章标签： scrapy 爬虫 Python 慕课网

本文链接：https://blog.csdn.net/qq_44257240/article/details/99164802

版权

Python 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

本文转载自
https://blog.csdn.net/zjiang1994/article/details/52779537
感谢这位博主的文章，写得非常好。我仅将慕课网最新界面xpath的内容发一下。
注意图片地址那里要加http

        for box in response.xpath('//div[@class="course-card-container"]/a[@target="_blank"]'):
            # 获取每个div中的课程路径
            item['url'] = 'http://www.imooc.com' + box.xpath('.//@href').extract()[0]
            # 获取div中的课程标题
            item['title'] = box.xpath('.//h3/text()').extract()[0].strip()
            # 获取div中的标题图片地址
            item['image_url'] ='http:'+box.xpath('.//@data-original').extract()[0]
            # 获取div中的学生人数
            item['student'] = box.xpath('.//div[@class="course-card-info"]/span[2]/text()').extract()[0].strip()
            # 获取div中的课程简介
            item['introduction'] = box.xpath('.//p[@class="course-card-desc"]/text()').extract()[0].strip()
            # 返回信息
            yield item

在这里插入图片描述
这是最新页面的源代码。