猫眼电影票房爬取到MySQL中_Scrapy爬取猫眼电影并存入MongoDB数据库

本文介绍了使用Scrapy框架爬取猫眼电影数据的步骤,包括创建项目、定义items、编写爬虫规则、设置XPath选择器以及实现数据存储到MongoDB的pipeline。文章详细展示了settings.py和pipeline.py的配置,并提醒注意可能遇到的302重定向问题。
摘要由CSDN通过智能技术生成

之前入门了Scrapy,用Scrapy框架爬取了豆瓣电影TOP250,最近打算学习下scrapy-redis分布式爬虫,学习之前再重新温故下Scrapy,这个总结我缩写了很多内容,很多介绍可以看下我之前写的豆瓣movie

实战应用

打开CMD输入

scrapy startproject maoyan

C:.

│ scrapy.cfg

└─maoyan

│ items.py

│ middlewares.py

│ pipelines.py

│ settings.py

│ __init__.py

└─spiders

__init__.py

编辑 item.py

import scrapy

class MaoyanItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

movie_name = scrapy.Field()

movie_ename = scrapy.Field()

movie_type = scrapy.Field()

movie_publish = scrapy.Field()

movie_time = scrapy.Field()

movie_star = scrapy.Field()

movie_total_price = scrapy.Field()

pass

首先,引入Scrapy

接着,创建一个类,继承自scrapy.item,这个是用来储存要爬下来的数据的存放容器,类似orm的写法

我们要记录的是:电影的名字、电影的评分、电影的上映时间、电影类型、电影英文名

获取网页数据

网页数据使用Xpath来索取元素非常方便,附上W3SCHOOL xpath学习 接下来,我们定义一下url的爬取规则

[图片上传失败...(image-4f0d9a-1513867500981)]

[图片上传失败...(image-e05661-1513867500981)]

我们真正要抓取电影详情页的是这个链接 http://maoya

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值