Java豆瓣电影爬虫——抓取电影详情和电影短评数据

最新推荐文章于 2024-02-18 21:08:32 发布

baixieyun4655

最新推荐文章于 2024-02-18 21:08:32 发布

阅读量955

点赞数 1

文章标签：爬虫 java 数据库

原文链接：http://www.cnblogs.com/bigdataZJ/p/doubanmovie1.html

版权

本文介绍了一个使用Java编写的豆瓣电影爬虫，旨在抓取电影详情和短评数据。通过Jsoup和正则表达式解析网页，数据存储在MySQL数据库中。涉及电影详情、评论信息的数据库设计，以及对不同HTTP状态的处理。后续文章将探讨数据分析和爬虫遇到的问题。

摘要由CSDN通过智能技术生成

　　一直想做个这样的爬虫：定制自己的种子，爬取想要的数据，做点力所能及的小分析。正好，这段时间宝宝出生，一边陪宝宝和宝妈，一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。现在做一个概要的介绍和演示。

动机

　　采集豆瓣电影数据包括电影详情页数据和电影的短评数据。

　　电影详情页如下图所示

　　需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。

　　短评页面如下图所示

　　需要保存的字段有短评所属的电影名称，每条评论的详细信息如评论人名称、评论内容等。

数据库设计

　　有了如上的需求，需要设计表，其实很简单，只需要一张电影详情表movie和一张电影短评表comments，另外还需要一张存储网页提取的超链接的记录表record。

　　movie表

movieId：主键，自增长
Name：电影名
Director：导演
Scenarist：编剧
Actors：主演
Type：类型
Country：制片国家/地区
Language：语言
releaseData：上映日期
Runtime：片长
ratingNum：豆瓣评分
Tags：标签

　　comments表

commentId：主键，自增长
commentIn

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。