【python学习】scrapy爬虫框架学习

scrapy学习,可以参考:scrapy1.5中文文档,http://www.scrapyd.cn/doc/

1)创建项目

  1. 指定文件夹目录创建项目,cmd进入文件夹路径,使用命令: scrapy startproject 项目名

      创建成功后的项目目录结构:

      

2)编写第一个蜘蛛,参考:http://www.scrapyd.cn/doc/140.html

import scrapy


class mingyan(scrapy.Spider):  # 需要继承scrapy.Spider类

    name = "mingyan2"  # 定义蜘蛛名(crwal后的名称)

    start_urls = ['http://lab.scrapyd.cn']

    def parse(self, response):
        mingyan = response.css('div.quote')

        for v in mingyan:  # 循环获取每一条名言里面的:名言内容、作者、标签

            text = v.css('.text::text').extract_first()  # 提取名言
            autor = v.css('.author::text').extract_first()  # 提取作者
            tags = v.css('.tags .tag::text').extract()  # 提取标签
            tags = ','.join(tags)  # 数组转换为字符串


            #保存
            fileName = '%s-语录.txt' % autor  # 爬取的内容存入文件,文件名为:作者-语录.txt
            with open(fileName, "a+") as f:  # 不同人的名言保存在不同的txt文档,“a+”以追加的形式
                f.write(text)
                f.write('\n')  # ‘\n’ 表示换行
                f.write('标签:' + tags)
                f.write('\n-------\n')
                f.close()

3)pycharm中运行Scrapy爬虫项目,参考:https://www.cnblogs.com/llssx/p/8378832.html

     定义一个py,如下:

from scrapy import cmdline

# 参数三为爬虫的名字name
cmdline.execute(['scrapy', 'crawl', 'mingyan2'])

4)scrapy提取数据:

      1. css选择器
      2. scrapy提取数据:xpath选择器

5)scrapy命令

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值