Python爬虫框架Scrapy学习笔记

1、首先安装python3.7+

2、安装scrapy,,,,可使用命令面板进行pip安装,方法自行百度

我使用的是Mac 下的 PyCharm开发,

配置环境:在Python Interpreter上切换python3.7的环境,并安装Scrapy。

Scrapy运行流程(了解)

Scrapy运行流程大概如下:

  1. 引擎从调度器中取出一个链接(URL)用于接下来的抓取
  2. 引擎把URL封装成一个请求(Request)传给下载器
  3. 下载器把资源下载下来,并封装成应答包(Response)
  4. 爬虫解析Response
  5. 解析出实体(Item),则交给实体管道进行进一步的处理
  6. 解析出的是链接(URL),则把URL交给调度器等待抓取

过程:

1、cd 进入(工程)文件夹下面创建工程

scrapy startproject  xxxxxxDemo

2、创建sprider 以 movie.douban为例子

cd xxxxxxDemo

scrapy genspider douban_movie movie.douban.com

3、使用pycherm打开 DoubookDemo 项目,编写代码

下面(三、代码编写)细说

4、打开命令面板Terminal cd在spiders文件路径下执行命令

scrapy crawl douban_spider

或者新建立一个如:main.py文件 ,直接Run执行

其他spider名字替换成你的spider名字

from  scrapy import cmdline
# 输出未过滤的页面信息
cmdline.execute('scrapy crawl spider名字'.split())

三、代码编写

1、在Spider中,书写主要的东西:

 name = 'hupu_bbs'
    allowed_domains = ['bbs.hupu.com']
    start_urls = ['http://bbs.hupu.com/bxj/']

    # def start_requests(self):
    #     for i in  range(1,10):
    #         yield scrapy.Request('http://bbs.hupu.com/bxj-' + str(i))

    def parse(self, response):

        movie_list = response.xpath("//div[@class='show-list']//ul[@class='for-list']/li")
        modelList = []
        for item in movie_list:
            itemModel = HupudemoItem()
            # douban_item['star'] = i_item.xpath(".//span[@class='rating_num']/text()").extract_first()
            # douban_item['evaluate'] = i_item.xpath(".//div[@class='star']//span[4]/text()").extract_first()
            # douban_item['describle'] = i_item.xpath(".//p[@class='quote']/span/text()").extract_first()
            itemModel['title'] = item.xpath(".//div[@class='titlelink box']/a/text()").extract_first()
            itemModel['name'] = item.xpath(".//
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值