Scrapy爬虫实战项目【001】 - 抓取猫眼电影TOP100

最新推荐文章于 2023-11-29 10:53:22 发布

qq_42681381

最新推荐文章于 2023-11-29 10:53:22 发布

阅读量1k

点赞数

分类专栏： scrapy爬虫项目文章标签： scrapy 爬虫

本文链接：https://blog.csdn.net/qq_42681381/article/details/82053404

版权

爬取猫眼电影TOP100

参考来源：静觅丨崔庆才的个人博客 https://cuiqingcai.com/5534.html

目的：使用Scrapy爬取猫眼电影TOP100并保存至MONGODB数据库

目标网址：http://maoyan.com/board/4?offset=0

分析/知识点：

爬取难度：
a. 入门级，网页结构简单，静态HTML，少量JS，不涉及AJAX；
b. 处理分页需要用到正则；
MONGODB的update语句使用：
a. update语句：具备查重/插入新数据功能，以title为查重标准

def process_item(self, item, spider):
    self.db['movies'].update({
  'title': item['title']}, {
  '$set': item}, upsert=True) #注意upsert=True，更新并插入
    return item

实际步骤：

1) 创建Scrapy项目/maoyan(spider)

Terminal: > scrapy startproject maoyan_movie
Terminal: > scrapy genspider maoyan maoyan.com/board/4?offset=

2) 配置settings.py文件

# MONGODB配置
MONGO_URI = 'localhost'

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_42681381

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scrapy爬虫实战项目【001】 - 抓取猫眼电影TOP100

爬取猫眼电影TOP100 参考来源：静觅丨崔庆才的个人博客 https://cuiqingcai.com/5534.html目的：使用Scrapy爬取猫眼电影TOP100并保存至MONGODB数据库目标网址：http://maoyan.com/board/4?offset=0分析/知识点：爬取难度： a. 入门级，网页结构简单，静态HTML，少量JS，不...
复制链接

扫一扫