python爬取豆瓣电影top250_<python3爬虫>scrapy爬取豆瓣电影Top250（第二节）

最新推荐文章于 2022-07-09 12:00:00 发布

徐姕

最新推荐文章于 2022-07-09 12:00:00 发布

阅读量561

点赞数

文章标签： python爬取豆瓣电影top250

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42374763/article/details/114445867

版权

634a47622d7e

我们要爬取的信息是这些电影的名称，电影相关信息，评分，以及一句话的名言。

这些信息就在网页的主体部分，使用xpath结合chrome的元素定位能很容易的提取到我们想要的信息。

接下来就是使用scrapy框架来编写我们的爬虫了。

在pycharm中，打开setting.py文件，添加一下内容

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) ' \

'Chrome/14.0.835.163 Safari/535.1'

FEED_URI = 'file:///E:/douban/result/douban.csv'

FEED_FORMAT = 'CSV'

user_agent是浏览器的标识，我们使用这个标识伪装我们的爬虫。然而豆瓣实际上并不会阻止爬虫爬取，并且它也是有自己的爬虫访问接口的。

下面的两个参数表示我们要把爬取的数据写入一个csv文件中，文件的地址是

file:///E:/douban/result/douban.csv

然后打开items.py文件，写入以下内容：

from scrapy import Item, Field

class DoubanItem(Item):

# define the fields for your item here like:

# name

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取豆瓣电影top250_<python3爬虫>scrapy爬取豆瓣电影Top250（第二节）

我们要爬取的信息是这些电影的名称，电影相关信息，评分，以及一句话的名言。这些信息就在网页的主体部分，使用xpath结合chrome的元素定位能很容易的提取到我们想要的信息。接下来就是使用scrapy框架来编写我们的爬虫了。在pycharm中，打开setting.py文件，添加一下内容USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWeb...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。