本文转载自
https://blog.csdn.net/zjiang1994/article/details/52779537
感谢这位博主的文章,写得非常好。我仅将慕课网最新界面xpath的内容发一下。
注意图片地址那里要加http
for box in response.xpath('//div[@class="course-card-container"]/a[@target="_blank"]'):
# 获取每个div中的课程路径
item['url'] = 'http://www.imooc.com' + box.xpath('.//@href').extract()[0]
# 获取div中的课程标题
item['title'] = box.xpath('.//h3/text()').extract()[0].strip()
# 获取div中的标题图片地址
item['image_url'] ='http:'+box.xpath('.//@data-original').extract()[0]
# 获取div中的学生人数
item['student'] = box.xpath('.//div[@class="course-card-info"]/span[2]/text()').extract()[0].strip()
# 获取div中的课程简介
item['introduction'] = box.xpath('.//p[@class="course-card-desc"]/text()').extract()[0].strip()
# 返回信息
yield item
这是最新页面的源代码。
xpath的语法,更详细的可以看下面这个网址。学会了xpath,页面再变化了就可以自己修改了。
https://www.w3school.com.cn/xpath/xpath_syntax.asp
抓取结果
抓取的图片
附上我的源码
https://download.csdn.net/download/qq_44257240/11472467