Scrapy框架安装与使用

一、安装依赖库

1、安装Twisted下载你系统对应的.whl文件

https://www.lfd.uci.edu/~gohlke/pythonlibs/

C:\Users\bj\Desktop>pip install Twisted-18.9.0-cp36-cp36m-win_amd64.whl
Requirement already satisfied: Twisted==18.9.0 from file:///C:/Users/bj/Desktop/Twisted-18.9.0-cp36-cp36m-win_amd64.whl

 2、安装lxml

pip install lxml

3、安装scrapy

pip install scrapy

 

 二、安装vs2015

参考https://blog.csdn.net/quxiaoxia1986/article/details/52352114/

三、运行scrapy

C:\Users\bj\Desktop>scrapy -h
Scrapy 1.5.1 - no active project
Usage:
  scrapy <command> [options] [args]

 四、一些常用的命令

  --bench
  --fetch
  --genspider
  --runspider
  --settings
  --shell
  --startproject
  --version
  --view

1、fetch命令

C:\Users\bj\Desktop>scrapy fetch "https://www.baidu.com" --nolog
<!DOCTYPE html>
<!--STATUS OK--><html>.......</html>

2、runspider命令

用notepad++在桌面新建文件first_spider.py,输入以下脚本:
from scrapy.spider import Spider
class FirstSpider(Spider):
	name="first"
	allowed_domains=["baidu.com"]
	start_urls=["http://www.baidu.com",]
	def parse(self,response):
		pass

C:\Users\bj\Desktop>scrapy runspider first_spider.py
运行成功

3、创建项目

scrap startproject

4、显示爬虫模板

scrap genspider -l

5、创建爬虫文件

scrap genspider -t spiderName basic/... 域名/baidu.com

6、测试爬虫

scrap check spiderName

7、运行爬虫文件

scrap crawl spiderName

8、查看当前项目所有爬虫文件

scrapy list

9、编辑爬虫文件(只能在linux上运行)

scrap edit spiderName

10、指定某个爬虫文件

scrapy parse spiderName

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值