【Scrapy框架（一）】爬取豆瓣电影

最新推荐文章于 2024-05-19 11:06:20 发布

fangqileo

最新推荐文章于 2024-05-19 11:06:20 发布

阅读量2.1k

点赞数 2

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fangqileo/article/details/121445128

版权

爬虫入门之后一定要掌握的就是scrapy框架。这个框架不仅本身就是基于twisted进行异步爬取，而且还有很强的拓展性、灵活性，后期进行商业性质的爬取可以部署分布式爬取。

scrapy框架核心部分不过四个

spider
settings
pipeline
items

当然，在熟练使用后middleware也是要掌握的。

今天用最简单的代码爬取一下豆瓣电影

命令行startproject 以及genspider这里不做赘述，直接进入爬虫project文件中写代码。

首先在items.py中声明爬取的item，也就是我们爬取的目标内容。

本次我们爬取的内容为

电影名（title）
分数
时长
导演
演员

import scrapy


class DbreyingItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    score = scrapy.Field()

最低0.47元/天解锁文章

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
【Scrapy框架（一）】爬取豆瓣电影

爬虫入门之后一定要掌握的就是scrapy框架。这个框架不仅本身就是基于twisted进行异步爬取，而且还有很强的拓展性、灵活性，后期进行商业性质的爬取可以部署分布式爬取。scrapy框架核心部分不过四个spider settings pipeline items当然，在熟练使用后middleware也是要掌握的。今天用最简单的代码爬取一下豆瓣电影命令行startproject 以及genspider这里不做赘述，直接进入爬虫project文件中写代码。首先在items..
复制链接

扫一扫

fangqileo CSDN认证博客专家 CSDN认证企业博客

码龄3年

22: 原创

53万+: 周排名

87万+: 总排名

1万+: 访问

: 等级

284: 积分

29: 粉丝

13: 获赞

8: 评论

54: 收藏

私信

关注

热门文章

分类专栏

tesserocr 1篇

最新评论

Mac M1 环境下安装tesserocr Python 3.9
夜幕.思年华: 为什么我报错 zsh: command not found: pip
【极简代码】Python Plotly Sunburst可视化全国Used Mercedes Benz
胡琵与锡笛: 您好！请问奔驰的相关数据集可以分享吗？我想自用测试代码功能，非常感谢
【Scrapy框架（一）】爬取豆瓣电影
m0_63876894: 为什么结果是这样的 2023-07-09 19:54:27 [scrapy.utils.log] INFO: Scrapy 2.9.0 started (bot: doubanmovie) 2023-07-09 19:54:27 [scrapy.utils.log] INFO: Versions: lxml 4.6.3.0, libxml2 2.9.10, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.1, Twisted 22.10.0, Python 3.8.8 (default, Apr 13 2021, 15:08:03) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 23.2.0 (OpenSSL 3.1.1 30 May 2023), cryptography 41.0.1, Platform Windows-10-10.0.19041-SP0 Usage ===== scrapy crawl [options] <spider> Run a spider Optional Arguments ================== -h, --help show this help message and exit -a NAME=VALUE set spider argument (may be repeated) -o FILE, --output FILE append scraped items to the end of FILE (use - for stdout), to define format set a colon at the end of the output URI (i.e. -o FILE:FORMAT) -O FILE, --overwrite-output FILE dump scraped items into FILE, overwriting any existing file, to define format set a colon at
Mac M1 环境下安装tesserocr Python 3.9
ll3o3: 牛逼终于解决！
Mac M1 环境下安装tesserocr Python 3.9
weixin_51492385: 太感谢了，找了一天终于找到了真正的解决办法

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。