一、创建爬虫项目
注意:不能直接使用PyCharm创建Scrapy项目,所以需要在爬虫实战三、PyCharm搭建Scrapy开发调试环境的基础(PyCharm配置完Scrapy)之上,选中mySpider项目,点击PyCharm中下方的Terminal,进入对应的命令行,执行命令创建doubanSpider项目
scrapy startproject doubanSpider
进入命令行。
TIM截图20190215160227.png
创建项目。
图片.png
二、创建爬虫并编写代码
爬虫项目生成后,进入项目路径。
图片.png
执行命令创建douban爬虫
scrapy genspider douban "movie.douban.com"
2-1、编写items.py
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class DoubanspiderItem(scrapy.Item):
# 电影标题
title = scrapy.Field()
# 电影信息
info = scrapy.Field()
# 电影评分
score = scrapy.Field()
# 评分人数
number = scrapy.Field()
# 简介
content = scrapy.Field()
2-2、编写spiders/douban.py
# -*- coding: utf-8 -*-
import scrapy
from doubanSpider.items import DoubanspiderItem
class DoubanSpider(scrapy.Spider):
name = "douban"
allowed_domains = ["movie.douban.com"]
start = 0
url = 'https://movie.douban.com/top250?start='
end = '&filter='
start_urls = [url + str(start) + end]
def parse(self, response):
item = DoubanspiderItem()
movies = response.xpath("