scrapy
ubuntu安装:
- python3安装依赖库:sudo apt-get install python3 python3-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
- 通过pip 安装 Scrapy 框架命令:sudo pip3 install scrapy
基本流程:
- startproject 创建一个新工程–scrapy startproject MySpider
- 进入项目目录 cd MySpider
- 在当前项目里创建爬虫: scrapy genspider atguigu ‘www.atguigu.com’
- 运行爬虫: scrapy crawl name
scrapy项目:自定义爬虫程序
- 需要引入item字段:from 项目名.items import 项目Item
- name:与爬虫程序相同
- allowed_domains : 定义爬取的域名(可以省略或者写多个)
- start_urls 爬取的起始网址
- parse_item方法中写解析数据的代码,获取数据方式
text = response.xpath('//div[@class="name"]/text()').extract()[0]
- item需要创建一个实例化对象
item = nameItem()
- 将数据放入item
item['title']=title
yirld item
将每条数据返回
scrapy项目:items<