Scrapy爬取豆瓣电影top250的电影数据、海报,MySQL存储

本文介绍了如何使用Scrapy爬虫抓取豆瓣电影Top250的电影数据和海报,并存储到MySQL数据库中。详细讲解了HTTP代理的base64编码原理,以及爬虫项目的环境配置、实体类设计、代码实现和运行步骤。
摘要由CSDN通过智能技术生成

从GitHub得到完整项目(https://github.com/daleyzou/douban.git)

1、成果展示

数据库

数据库

 

本地海报图片

下载图片

 

2、环境

(1)已安装Scrapy的Pycharm

(2)mysql

(3)连上网络的电脑

 

3、实体类设计

豆瓣1

4、代码

items.py

  1 class DoubanItem(scrapy.Item):
  2     title = scrapy.Field()
  3     bd = scrapy.Field()
  4     star = scrapy.Field()
  5     quote = scrapy.Field()
  6     img_url = scrapy.Field()
  7     pic_path = scrapy.Field()

doubanmovie.py(爬虫类)

  1 # -*- coding: utf-8 -*-
  2 import scrapy
  3 
  4 # noinspection PyUnresolvedReferences
  5 from douban.items import DoubanItem
  6 import sys
  7 reload(sys)
  8 sys.setdefaultencoding('utf-8')
  9 
 10 
 11 class DoubanmovieSpider(scrapy.Spider):
 12     name = 'doubanmovie'
 13     allowed_domains = ['douban.com']
 14     offset = 0
 15     url = "https://movie.douban.com/top250?start="
 16     start_urls = [url + str(offset),]
 17 
 18     def parse(self, response):
 19         item = DoubanItem()
 20         movies = response.xpath("//div[ @class ='info']")
 21         links = response.xpath("//div[ @class =
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值