一、安装scrapy库
在cmd( win键+R,然后输入cmd回车)下执行以下命令安装scrapy
pip install scrapy
二、创建项目
打开cmd,切换至项目保存的目录下,执行下列语句:
scrapy startproject doubanmovie #创建项目文件
cd doubanmovie #切换至目录
scrapy genspider top250 "movie.douban.com" # 创建爬虫top250
三、分析网页
- 打开豆瓣电影排行网址:豆瓣top250地址
- 查看其源码(Ctrl + U)
可以查看我们需要爬取信息相应的html标签,每部电影的相关信息都在<div class="info">
标签内
四、开始编写代码
1. items.py
加入我们需要爬取的字段
import scrapy
class DoubanmovieItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field() # 电影名
movieInfo = scrapy.Field() # 电影简介
star = scrapy.Field() # 评分
number = scrapy.Field() # 评价人数
quote = scrapy.Field() # 简评
2. 编写 spider.py(top250.py)
# -*- coding: utf-8 -*-
import scrapy
import requests
import time
from scrapy import Request,Selector
from doubanmovie.items import DoubanmovieItem
class Top250Spider(scrapy.Spider):
name = 'top250' # 爬虫的名字
# allowed_domains = ['movie.douban.com']
# start_urls = ['http://movie.douban.com/']<