1.安装
pip install scrapy
2.创建项目
scrapy startproject firstSpider(项目名)
3.创建爬虫文件
cd firstSpider/firstSpider
scrapy genspider qiubai "www.qiushibaike.com"
scrapy genspider -t crawl qiubai "www.qiushibaike.com"
4.在items文件中定制数据结构
5.运行,保存相应格式的文件
scrapy crawl qiubai -o qiubai.json
scrapy crawl qiubai -o qiubai.xml
scrapy crawl qiubai -o qiubai.csv
其他——调试
scrapy shell "http://www.baidu.com"
response.text
response.body
1.response.xpath()
2.response.css()
获取内容
获取属性
3.selector对象
extract(): 将对象转化为unicode字符串,供你的代码使用
extract_first(): 理论上相当于上面的name_list.extract()[0]