爬虫实战四、PyCharm+Scrapy爬取数据并存入MySQL

最新推荐文章于 2024-07-12 12:04:31 发布

Cehae

最新推荐文章于 2024-07-12 12:04:31 发布

阅读量1k

点赞数 5

分类专栏：爬虫文章标签：爬虫 pycharm scrapy

本文链接：https://blog.csdn.net/Cehae/article/details/137345323

版权

本文详细介绍了如何在PyCharm环境下，通过Scrapy框架创建爬虫项目，编写items.py、spiders/douban.py和pipelines.py文件，同时配置连接MySQL数据库，存储爬取的电影数据，并解决常见问题如引用错误和数据库连接缺失。

摘要由CSDN通过智能技术生成

注意：此博客衔接爬虫实战三、PyCharm搭建Scrapy开发调试环境，参考此博客之前请详细阅读爬虫实战三、PyCharm搭建Scrapy开发调试环境

#一、创建爬虫项目

注意：不能直接使用PyCharm创建Scrapy项目，所以需要在爬虫实战三、PyCharm搭建Scrapy开发调试环境的基础（PyCharm配置完Scrapy）之上，选中mySpider项目，点击PyCharm中下方的Terminal，进入对应的命令行，执行命令创建doubanSpider项目

scrapy startproject doubanSpider

进入命令行。

TIM截图20190215160227.png

创建项目。

图片.png

#二、创建爬虫并编写代码

爬虫项目生成后，进入项目路径。

图片.png

执行命令创建douban爬虫

scrapy genspider douban "movie.douban.com"

###2-1、编写items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class DoubanspiderItem(scrapy.Item):
    # 电影标题
    title = scrapy.Field()

    # 电影信息
    info = scrapy.Field()

    # 电影评分
    score = scrapy.Field()

    # 评分人数
    number = scrapy.Field()

    # 简介
    content = scrapy.Field()

###2-2、编写spiders/douban.py

# -*- coding: utf-8 -*-
import scrapy
from doubanSpider.items import DoubanspiderItem


class DoubanSpider(scrapy.Spider):
    name = "douban"

    allowed_domains = ["movie.douban.com"]

    start = 0

    url = 'https://movie.douban.com/top250?start='

    end