第一次写爬虫程序爬取豆瓣5W条电影数据

本文详细介绍了如何使用Java和httpclient爬取豆瓣电影数据,包括网页分析、数据库表结构设计、代码实现以及应对反爬策略。作者通过设置动态User-Agent、使用代理IP、控制请求频率等方式成功获取了5W条电影数据,并提供了源码链接。
摘要由CSDN通过智能技术生成

第一次写爬虫程序爬取豆瓣5W条电影数据

最近工作比较不是很忙,想到之前使用httpclient和jsoup爬取过一次豆瓣电影TOP250,但总觉得数据量太小,不过瘾。于是趁着最近不是很忙的机会,重新写了个爬虫,目标是豆瓣里所有的电影数据!
完整源码请参考lixiaodongisme的github

网页分析

首先观察一下豆瓣的网页,看看该如何入手。为了获取到所有的电影数据,我找到了这个页面https://movie.douban.com/tag/#/。页面大概如下所示。
在这里插入图片描述
因为我们的目的是获取所有影视相关的数据,所以影视的类型、年代等标签,我们都选择全部即可。通过点击加载更多,就可以获得更多的数据。接下来我们通过浏览器抓包,看能不能找到一些规律,可以让我们的程序去自动采集信息。抓包后我们发现点击加载更多,实际是发送了一个异步的GET请求,默认带四个参数,如图所示。
在这里插入图片描述
我们可以看到有一个start参数,第一次访问时,start是0,点击加载更多后,变为

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值