scrpy 豆瓣电影信息爬取

最新推荐文章于 2024-05-12 21:12:39 发布

carry-s

最新推荐文章于 2024-05-12 21:12:39 发布

阅读量1.5k

点赞数

分类专栏： SCRAPY 文章标签： scrapy 豆瓣电影 crawl-spid

本文链接：https://blog.csdn.net/u013402772/article/details/51159000

版权

本文介绍如何使用scrapy爬取豆瓣电影信息，包括item.py、movie_spider.py、pipelines.py的设置，以及处理MySQL编码问题的提示。在爬取过程中，需要注意数据的UTF-8编码与MySQL数据库的匹配，同时分享了如何通过Chrome开发者工具获取XPath。爬取的内容包括电影名称、年份、导演、类型、演员、评分和评论URL。

摘要由CSDN通过智能技术生成

scrapy 的组件和流程：

scrapy 的流程
前段时间因为需要，爬了几部豆瓣电影，才开始接触scrapy ，不过网上代码很多，而且文档里也有不少例子。所以入门还是很容易的。
这里附一下文档的地址：
https://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html；
https://scrapy-chs.readthedocs.org/zh_CN/1.0/；
其实英文版更好一点，奈何水平有限，看英文版实在费劲。

item.py

# -*- coding: UTF-8 -*-

from scrapy.item import Item, Field

class DoubanmovieItem(Item):
    name=Field()
    year=Field()
    score=Field()
    director=Field()
    classification=Field()
    actor=Field()
    commenturl = Field()
    ID = Field()
    pass

movie_spider.py

# -*- coding: utf-8 -*-
from scrapy.selector import Selector
from scrapy.spiders import CrawlSpider,Rule
from scrapy.linkextractors.sgml import SgmlLinkExtractor
from doubanmovie.items import DoubanmovieItem

class MoiveSpider(CrawlSpider):
    name=&

最低0.47元/天解锁文章

carry-s

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrpy 豆瓣电影信息爬取

scrapy 的组件和流程：前段时间因为需要，爬了几部豆瓣电影，才开始接触scrapy ，不过网上代码很多，而且文档里也有不少例子。所以入门还是很容易的。这里附一下文档的地址： https://scrapy-chs.readthedocs.org/zh_CN/0.24/index.html； https://scrapy-chs.readthe
复制链接

扫一扫

专栏目录