使用Scrapy框架爬取慕课网页

想要完成一个scrapy爬虫框架,那首先得明确自己想要爬取的东西是什么,要选择什么样的爬取方法。接下来我就讲一下我使用Scrapy框架爬取慕课网的一些思路以及过程。

思路:(1)打开慕课网址,并分析网站;

(2)创建Scrapy;

(3)设置爬虫文件;

(4)爬取慕课网址;

  (5)保存数据。

过程:

1、打开浏览器,输入网站地址:
https://coding.imooc.com/

 2、分析页面。右键点击“检查”,查看网页元素,这里阿彬就爬取书本的名字和图片的地址。

 3、创建项目。输入命令 scrapy  startproject  wl,创建一个名叫wl的爬虫项目。

4、进入项目,到wl项目中进入原有的spiders文件中,创建自定义的爬虫文件;命令为:scrapy  genspider  whh(爬虫文件名字) 爬取网页的网址

 5、接下来呢得修改爬虫项目中的setting文件。

把君子协议原本是True改为False。

 

 再把这行原本被注释掉的代码把它打开。

 

6、进入items文件进行定义爬取字段,代码如下:

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html
 
import scrapy
 
 
class WlItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()   # 爬取该书本的名称
    img = scrapy.Field()    # 爬取该书本的图片


7、编辑whh.py文件,使用xpath方法爬取网页,代码如下:

import scrapy
from ..items import WlItem
 
 
class WhhSpider(scrapy.Spider):
    name = 'whh'
    allowed_domains = ['https://coding.imooc.com/']
    start_urls = ['https://coding.imooc.com/']
 
    def parse(self, response):
        whh = response.xpath('//ul[@class="course-list clearfix"]/li/a')
 
        for i in whh:
            name = i.xpath('./p[1]/text()').extract()
            img = i.xpath('./div/@style').extract()
            for a in img:
                src = 'http:' + a[22:-1]
            print(name, src)
 
    
            data = WlItem(name=name, img=src)
            yield data


8、在pycharm工具的终端执行命令“scrapy  crawl  whh ”,运行结果如下图所示:

 

 9、使用CSV格式保存数据只需执行命令“scrapy  crawl  whh  -o data.csv”,结果如下图所示:

 

 好了,一个简单的scrapy爬虫框架就做好了。感谢各位博主收看。
 

  • 7
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一杯彬美式

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值