python爬虫框架scrapy流程

最新推荐文章于 2022-01-29 12:01:24 发布

qq_652530495

最新推荐文章于 2022-01-29 12:01:24 发布

阅读量132

点赞数

分类专栏： python开发文章标签： scrapy

本文链接：https://blog.csdn.net/qq_22526061/article/details/103008537

版权

8 篇文章 0 订阅

订阅专栏

1 创建项目 scrapy startproject project1

2 cd project1

3 创建爬虫 scrapy genspider spider1 yao.xywy.com

4 改spiders里的spider1

5 setting robot协议设置为false

使用管道 items 里写想要存储的字段

在spider里面导入存完自动到管道里，在setting里面设置使用管道，

xpath匹配：多个class 匹配不上，br会识别出多个列表，通过string(.)可以解决

all_xpath = "//div[@id='pTop']//div[@class='d-direction']/p"
all_data = response.xpath(all_xpath)
all_data = all_data.xpath('string(.)').extract()

scrapy shell 网址可以在交互模式下测试xpath规则

开始下载

scrapy crawl spider1 -o ret.json -s FEED_EXPORT_ENCODING=UTF-8

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注