1 创建项目 scrapy startproject project1
2 cd project1
3 创建爬虫 scrapy genspider spider1 yao.xywy.com
4 改spiders里的spider1
5 setting robot协议 设置为false
使用管道 items 里写想要存储的字段
在spider里面导入 存完 自动到管道里,在setting里面 设置使用管道,
xpath匹配 : 多个class 匹配不上,br会识别出多个列表,通过string(.)可以解决
all_xpath = "//div[@id='pTop']//div[@class='d-direction']/p"
all_data = response.xpath(all_xpath)
all_data = all_data.xpath('string(.)').extract()
scrapy shell 网址 可以在交互模式下测试xpath规则
开始下载
scrapy crawl spider1 -o ret.json -s FEED_EXPORT_ENCODING=UTF-8