python爬虫04:关于scrapy

python爬虫之scrapy框架

scrapy底层基于twisted,是io多路复用的,高并发的,是select+回调+事件循环的
使用scrapy最好不要写用同步io,用同步框架、库等,这样会降低scrapy的并发性能

scrapy默认文件

可以百度scrapy的官方文档scrapy document
创建一个scrapy项目
>>scrapy startproject ArticleSpider
之后会有

You can start your first spider with:
    cd ArticleSpider
    scrapy genspider example example.com

随便按照提示选一个网页>>scrapy genspider jobbole news.cnblogs.com
会生成一个基本的爬虫
当然,我们可以在命令行里用scrapy crawl来运行一个爬虫
但这样不好调试
我们可以在pycharm里通过py文件的方式来调试
事实上也可以通过py文件来创建scrapy爬虫,只要其中有类继承了scrapy.Spider

在项目目录下创建py文件

from scrapy.cmdline import execute

import sys
import os

'''python文件运行时都会有这个变量,显示当前脚本的路径,包括脚本'''
print(__file__)

'''os模块的这个函数可以找到当前python文件的根目录'''
sys.path.append(os.path.dirname(__file__))

execute(["scrapy", "crawl", "jobbole"])

可以执行爬虫脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值