Scrapy爬虫

最新推荐文章于 2024-03-31 13:02:08 发布

Xiaoshuang_Cao

最新推荐文章于 2024-03-31 13:02:08 发布

阅读量98

点赞数

本文链接：https://blog.csdn.net/qq_41969287/article/details/103364820

版权

一、安装(Windows Python3)

pip install scrapy

二、Scrapy爬虫四部曲
1、创建Scrapy爬虫项目（scrapy startproject 项目名）
2、定义提取的结构化数据（items.py）
3、编写爬取网站的 Spider （scrapy genspider 爬虫名爬虫网站）
4、存储内容（pipilines.py）

三、调试及结果
在scrapy.cfg同级目录下创建调试脚本run.py，内容如下

from scrapy import cmdline
cmdline.execute('scrapy crawl 爬虫名'.split())

保存：

-o  输出指定格式的文件
scrapy crawl  爬虫名  -o  xxx.json（json格式）
scrapy crawl  爬虫名  -o  xxx.jsonl（json lines格式，默认为Unicode编码）
scrapy crawl  爬虫名  -o  xxx.csv
scrapy crawl  爬虫名  -o  xxx.xml

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Xiaoshuang_Cao

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Scrapy爬虫

一、安装(Windows Python3)pip install scrapypowershell中输入scrapy，提示一下内容则表示安装成功PS C:\Users\Administrator> scrapyScrapy 1.7.3 - no active projectUsage: scrapy <command> [options] [args]Ava...
复制链接

扫一扫