一次用爬虫扒取豆瓣电影条目信息的尝试

最新推荐文章于 2024-06-24 14:52:41 发布

WickedDogg

最新推荐文章于 2024-06-24 14:52:41 发布

阅读量2.2k

点赞数 2

分类专栏： NodeJS javascript 爬虫豆瓣爬取数据文章标签：豆瓣爬虫 nodejs request promise

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WickedDogg/article/details/71563020

版权

本文讲述了作者尝试使用爬虫抓取豆瓣电影条目的经历，包括遇到的反扒机制、如何处理登录问题，特别是关注了登录时headers中的'dbcl2'字段。通过nodejs结合request-promise-native和tough-cookie库实现了动态添加cookie，以获取并解析豆瓣电影页面的JSON数据。

摘要由CSDN通过智能技术生成

最近做个电影的东西，突发奇想把豆瓣的电影条目扒下来一点，看了下，现在大概有140个左右的条目，这些条目分得比较细，连某个人的电影都分了出来，所以重复的也比较多，当然这些我都还没细弄，只是大致扒了一点，而且因为扒得太快，导致暂时被封ip了。

昨天尝试了很久，本来不登录也能正常扒取电影信息，但是现在不行了，必须要登录。

豆瓣的反扒机制做得很简陋，以至于我成功时候以为就没有反扒机制。

刚开始是直接通过链接来扒取，豆瓣有的网页是返回json字符串，有的是返回整个网页，所以要区分开来。

整个扒取最关键的一点是初次登录时候response的headers里面set-cookie中的“dbcl2”一项，登录豆瓣时候的login返回的headers中set-cookie是有多项的，我没在npm库里面找到有什么好的解析方法，所以这个只能每次扒的时候手动添加，请求时候添加cookie用的是tough-cookie，这个库还是比较好用的，配合request-promise-native很简单，官方也有例子，大致看下就会了。
放一个获取单页20个条目的源代码，tough-cookie官方给的例子我觉得有的地方不太清晰，其实直接按照

let cookieJar = ne

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

WickedDogg CSDN认证博客专家 CSDN认证企业博客

码龄10年

7: 原创

48万+: 周排名

119万+: 总排名

4万+: 访问

: 等级

443: 积分

1: 粉丝

10: 获赞

6: 评论

18: 收藏

私信

关注

热门文章

分类专栏

NodeJS 4篇
express 2篇
flash 1篇
小程序 1篇
javascript 5篇
微信开发 1篇
爬虫 1篇
豆瓣爬取数据 1篇
算法 2篇
dom 1篇
数据结构 1篇
排序算法 1篇
闭包 1篇
require-js 1篇
mac 1篇
electron 1篇
桌面开发 1篇
适配 1篇
css 1篇
iOS 1篇
viewport 1篇

最新评论

如何快速生成icns格式的Mac图标
weixin_42558202: 成功了，感谢博主
如何快速生成icns格式的Mac图标
小哥该吃药了回复 sinat_39115222: 我一遍过，上面sips命令可能是csdn页面展示的问题，看不到最后一条命令。你检查下最后是不是少一个1024的。
如何快速生成icns格式的Mac图标
「已注销」: 成功了，最后的命令中icons.iconset可以改成你的实际文件夹，但必须以xxx.iconset结尾
如何快速生成icns格式的Mac图标
sinat_39115222: 目录一样，连图片名称都一样，最后一行命令报错icons.iconset:Failed to generate ICNS
如何快速生成icns格式的Mac图标
weixin_40013926 回复 JackCui_X: icons.iconset 是目录名，得根据你的实际情况改动

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。