文/Kingshine 图片来源于网络
♚作者简介:KingShine,现居北京,程序猿一枚。主要方向为数据分析、自然语言处理,大数据。希望结交到志同道合的朋友,共同进步。
作者想学习知识图谱,奈何没有数据,只能自己找。于是选择了豆瓣电影。网址:
https://movie.douban.com/top250?start=0&filter=
一、分析问题
豆瓣电影Top250主页面看着信息比较完整,仔细看会发现主演内容不全,查看网页源代码
直接爬取主页面,主演内容会获取不全。于是想到进入每个电影的详细页面进行爬取,打开第一个电影,可以看到如下。
信息比较全,所以决定数据从电影详细页爬取。
构建知识图谱首先选择所要存储的字段。经过考虑和大家的兴趣,主要探索导演、演员、电影的关系,再加上电影类型。所以确定所要爬取的字段为
电影名称
导演
演员
电影类型
本文的操作过程步骤如下:
第一步:从主页爬取到每个电影详细页的地址,进行存储