使用Scrapy框架爬取慕课网页

最新推荐文章于 2024-04-25 22:20:02 发布

一杯彬美式

最新推荐文章于 2024-04-25 22:20:02 发布

阅读量1.1k

点赞数 7

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/m0_59839948/article/details/125258964

版权

想要完成一个scrapy爬虫框架，那首先得明确自己想要爬取的东西是什么，要选择什么样的爬取方法。接下来我就讲一下我使用Scrapy框架爬取慕课网的一些思路以及过程。

思路：（1）打开慕课网址，并分析网站；

（2）创建Scrapy；

（3）设置爬虫文件；

（4）爬取慕课网址；

（5）保存数据。

过程：

1、打开浏览器，输入网站地址：
https://coding.imooc.com/

2、分析页面。右键点击“检查”，查看网页元素，这里阿彬就爬取书本的名字和图片的地址。

3、创建项目。输入命令 scrapy startproject wl，创建一个名叫wl的爬虫项目。

4、进入项目，到wl项目中进入原有的spiders文件中，创建自定义的爬虫文件；命令为：scrapy genspider whh（爬虫文件名字）爬取网页的网址。

5、接下来呢得修改爬虫项目中的setting文件。

把君子协议原本是True改为False。

再把这行原本被注释掉的代码把它打开。

6、进入items文件进行定义爬取字段，代码如下：

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
 
import scrapy
 
 
class WlItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()   # 爬取该书本的名称
    img = scrapy.Field()    # 爬取该书本的图片

7、编辑whh.py文件，使用xpath方法爬取网页，代码如下：

import scrapy
from ..items import WlItem
 
 
class WhhSpider(scrapy.Spider):
    name = 'whh'
    allowed_domains = ['https://coding.imooc.com/']
    start_urls = ['https://coding.imooc.com/']
 
    def parse(self, response):
        whh = response.xpath('//ul[@class="course-list clearfix"]/li/a')
 
        for i in whh:
            name = i.xpath('./p[1]/text()').extract()
            img = i.xpath('./div/@style').extract()
            for a in img:
                src = 'http:' + a[22:-1]
            print(name, src)
 
    
            data = WlItem(name=name, img=src)
            yield data

8、在pycharm工具的终端执行命令“scrapy crawl whh ”，运行结果如下图所示：

9、使用CSV格式保存数据只需执行命令“scrapy crawl whh -o data.csv”，结果如下图所示：

好了，一个简单的scrapy爬虫框架就做好了。感谢各位博主收看。

一杯彬美式

关注

7
点赞
踩
21

收藏

觉得还不错? 一键收藏
打赏
1
评论
使用Scrapy框架爬取慕课网页

使用Scrapy框架爬取慕课网页
复制链接

扫一扫

使用Scrapy框架爬取慕课网页

“相关推荐”对你有帮助么？