scrpy 豆瓣电影信息爬取

本文介绍如何使用scrapy爬取豆瓣电影信息,包括item.py、movie_spider.py、pipelines.py的设置,以及处理MySQL编码问题的提示。在爬取过程中,需要注意数据的UTF-8编码与MySQL数据库的匹配,同时分享了如何通过Chrome开发者工具获取XPath。爬取的内容包括电影名称、年份、导演、类型、演员、评分和评论URL。
摘要由CSDN通过智能技术生成

scrapy 的组件和 流程:

scrapy 的流程
前段时间因为需要,爬了几部豆瓣电影,才开始接触scrapy ,不过网上代码很多,而且文档里也有不少例子。所以 入门还是很容易的。
这里附一下 文档的地址:
https://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html
https://scrapy-chs.readthedocs.org/zh_CN/1.0/
其实 英文版更好一点,奈何水平有限,看英文版实在费劲。

item.py

# -*- coding: UTF-8 -*-

from scrapy.item import Item, Field

class DoubanmovieItem(Item):
    name=Field()
    year=Field()
    score=Field()
    director=Field()
    classification=Field()
    actor=Field()
    commenturl = Field()
    ID = Field()
    pass

movie_spider.py

# -*- coding: utf-8 -*-
from scrapy.selector import Selector
from scrapy.spiders import CrawlSpider,Rule
from scrapy.linkextractors.sgml import SgmlLinkExtractor
from doubanmovie.items import DoubanmovieItem

class MoiveSpider(CrawlSpider):
    name=&
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值