开发环境:Python3.7 + Scrapy框架 + Django网站 + mysql数据库
这个项目有2个爬虫程序和一个网站程序:其中一个爬虫负责分页抓取json格式的数据,分析拿到豆瓣电影的详情页面url地址存入到redis数据库的content_urls集合中;另外一个爬虫负责抓取详情页url的电影内容字段,包括了电影名称、导演、主演、编剧、电影类型、国家、语言、上映日期、豆瓣评分、电影简介等,然后将爬取的电影记录插入到mysql数据库表中;然后一个基于Django框架开发的网站负责电影信息的查询展示,也可以用户注册登录发布留言,还可以查看管理员发布的新闻公告等!