Python爬虫:scrapy基本使用(初始化配置)

什么是框架:集成了很多功能并且具有很强通用性的一个项目模板

如何学习框架:专门学习框架封装的各种功能的详细用法

什么是scrapy:爬虫中封装好的一个明星框架,功能:高性能的持久化存储、异步的数据下载、高性能的数据解析、分布式

创建一个工程:

在cmd命令行中:
1、cd xxxxxx(文件夹名称,用来存放工程)
2、scrapy startproject xxxxxx(工程名称)
3、cd xxxxxx(工程名称)
4、在spiders子目录中创建一个爬虫文件:
scrapy genspider spiderName www.xxx.com
其中spiderName是爬虫文件的名称,可以自己设置
其中www.xxx.com是url,可以自己设置
5、执行工程:scrapy crawl spiderName

settings.py是配置文件,需要经常使用。
修改里面的ROBOTSTXT_OBEY = False
LOG_LEVEL = ‘ERROR’ #显示指定类型的日志信息
修改里面的USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36’

以下是创建的爬虫文件的基本框架:

import scrapy

#Spider是父类
class FirstSpider(scrapy.Spider):
    #爬虫文件的名称:爬虫源文件的一个唯一标识
    name = 'first'
    #允许的域名:用来限定start_urls列表中哪些url可以进行请求发送,一般不用
    # allowed_domains = ['www.baidu.com']

    #起始的url列表:该列表中存放的url会被scrapy自动进行请求的发送
    start_urls = ['https://www.baidu.com/','https://www.sogou.com/']    #列表中可以有多个url

    #用作于数据解析:response参数表示的是请求成功后对应的响应对象
    #parse函数会被调用多次,调用的次数等于start_urls里面url的数量
    def parse(self, response):
        print(response)
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值