Scrapy框架安装与使用

最新推荐文章于 2022-07-28 21:33:58 发布

阿龙er

最新推荐文章于 2022-07-28 21:33:58 发布

阅读量284

点赞数 1

本文链接：https://blog.csdn.net/u012865864/article/details/86573927

版权

一、安装依赖库

1、安装Twisted，下载你系统对应的.whl文件

https://www.lfd.uci.edu/~gohlke/pythonlibs/

C:\Users\bj\Desktop>pip install Twisted-18.9.0-cp36-cp36m-win_amd64.whl
Requirement already satisfied: Twisted==18.9.0 from file:///C:/Users/bj/Desktop/Twisted-18.9.0-cp36-cp36m-win_amd64.whl

2、安装lxml

pip install lxml

3、安装scrapy

pip install scrapy

二、安装vs2015

参考https://blog.csdn.net/quxiaoxia1986/article/details/52352114/

三、运行scrapy

C:\Users\bj\Desktop>scrapy -h
Scrapy 1.5.1 - no active project
Usage:
  scrapy <command> [options] [args]

四、一些常用的命令

  --bench
  --fetch
  --genspider
  --runspider
  --settings
  --shell
  --startproject
  --version
  --view

1、fetch命令

C:\Users\bj\Desktop>scrapy fetch "https://www.baidu.com" --nolog
<!DOCTYPE html>
<!--STATUS OK--><html>.......</html>

2、runspider命令

用notepad++在桌面新建文件first_spider.py,输入以下脚本:
from scrapy.spider import Spider
class FirstSpider(Spider):
	name="first"
	allowed_domains=["baidu.com"]
	start_urls=["http://www.baidu.com",]
	def parse(self,response):
		pass

C:\Users\bj\Desktop>scrapy runspider first_spider.py
运行成功

3、创建项目

scrap startproject

4、显示爬虫模板

scrap genspider -l

5、创建爬虫文件

scrap genspider -t spiderName basic/... 域名/baidu.com

6、测试爬虫

scrap check spiderName

7、运行爬虫文件

scrap crawl spiderName

8、查看当前项目所有爬虫文件

scrapy list

9、编辑爬虫文件(只能在linux上运行)

scrap edit spiderName

10、指定某个爬虫文件

scrapy parse spiderName

阿龙er

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy框架安装与使用

一、安装依赖库1、安装Twisted，下载你系统对应的.whl文件https://www.lfd.uci.edu/~gohlke/pythonlibs/C:\Users\bj\Desktop&gt;pip install Twisted-18.9.0-cp36-cp36m-win_amd64.whlRequirement already satisfied: Twisted==18...
复制链接

扫一扫