猫眼电影票房爬取到MySQL中_Scrapy爬取猫眼电影并存入MongoDB数据库

最新推荐文章于 2021-06-13 23:20:47 发布

yo xiba

最新推荐文章于 2021-06-13 23:20:47 发布

阅读量848

点赞数

文章标签：猫眼电影票房爬取到MySQL中

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42468321/article/details/114022398

版权

本文介绍了使用Scrapy框架爬取猫眼电影数据的步骤，包括创建项目、定义items、编写爬虫规则、设置XPath选择器以及实现数据存储到MongoDB的pipeline。文章详细展示了settings.py和pipeline.py的配置，并提醒注意可能遇到的302重定向问题。

摘要由CSDN通过智能技术生成

之前入门了Scrapy，用Scrapy框架爬取了豆瓣电影TOP250，最近打算学习下scrapy-redis分布式爬虫，学习之前再重新温故下Scrapy，这个总结我缩写了很多内容，很多介绍可以看下我之前写的豆瓣movie

实战应用

打开CMD输入

scrapy startproject maoyan

C:.

│ scrapy.cfg

│

└─maoyan

│ items.py

│ middlewares.py

│ pipelines.py

│ settings.py

│ __init__.py

│

└─spiders

__init__.py

编辑 item.py

import scrapy

class MaoyanItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

movie_name = scrapy.Field()

movie_ename = scrapy.Field()

movie_type = scrapy.Field()

movie_publish = scrapy.Field()

movie_time = scrapy.Field()

movie_star = scrapy.Field()

movie_total_price = scrapy.Field()

pass

首先，引入Scrapy

接着，创建一个类，继承自scrapy.item,这个是用来储存要爬下来的数据的存放容器，类似orm的写法

我们要记录的是：电影的名字、电影的评分、电影的上映时间、电影类型、电影英文名

获取网页数据

网页数据使用Xpath来索取元素非常方便，附上W3SCHOOL xpath学习接下来，我们定义一下url的爬取规则

[图片上传失败...(image-4f0d9a-1513867500981)]

[图片上传失败...(image-e05661-1513867500981)]

我们真正要抓取电影详情页的是这个链接 http://maoya

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
猫眼电影票房爬取到MySQL中_Scrapy爬取猫眼电影并存入MongoDB数据库

之前入门了Scrapy，用Scrapy框架爬取了豆瓣电影TOP250，最近打算学习下scrapy-redis分布式爬虫，学习之前再重新温故下Scrapy，这个总结我缩写了很多内容，很多介绍可以看下我之前写的豆瓣movie实战应用打开CMD输入scrapy startproject maoyanC:.│ scrapy.cfg│└─maoyan│ items.py│ middlewares.py...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。