一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。现在做一个概要的介绍和演示。
动机
采集豆瓣电影数据包括电影详情页数据和电影的短评数据。
电影详情页如下图所示
需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。
短评页面如下图所示
需要保存的字段有短评所属的电影名称,每条评论的详细信息如评论人名称、评论内容等。
数据库设计
有了如上的需求,需要设计表,其实很简单,只需要一张电影详情表movie和一张电影短评表comments,另外还需要一张存储网页提取的超链接的记录表record。
movie表
- movieId:主键,自增长
- Name:电影名
- Director:导演
- Scenarist:编剧
- Actors:主演
- Type:类型
- Country:制片国家/地区
- Language:语言
- releaseData: 上映日期
- Runtime: 片长
- ratingNum:豆瓣评分
- Tags:标签
comments表
- commentId:主键,自增长
- commentIn