该项目是我转行做数据挖掘之后的第一个小项目,算是作为练习。项目总结如下。

 

项目描述:

该项目分为两部分:电影评分和演员评分。

电影评分:对电影的票房、IMDB和豆瓣综合评分、微博热度等几项进行分别打分后,进行综合评分;

演员评分:对演员的票房、微博热度、入行时间、作品数量等几项进行分别打分后,进行综合评分。

 

掌握技能:

爬虫原理,正则表达式,xpath,少量NLP问题,pandas、requests、urllib2lxmljsonre等Python包的使用。

 

电影:

1、爬取猫眼票房网(http://pf.maoyan.com)上的电影票房信息;

2、爬取了豆瓣上共2700多部电影的信息:电影名、评分、网址、导演、主演、上映日期、又名、IMDB网址

3、爬取了IMDB上电影的评分和评分人数;

4、爬取了微博上电影主题的热度(主题的阅读数和讨论数)。

掌握技能:其中涉及到少量的NLP问题,即需要将电影名字和微博主题进行匹配

演员:

1、抓取猫眼票房网(http://pf.maoyan.com)上演员参演电影的总票房信息;

2、抓取了微博上明星主题的热度(主题的阅读数和评论数);

掌握技能:其中涉及到少量的NLP问题,即需要将演员名字和明星的微博主题进行匹配

3、对银河演员网(http://www.8fkd.com)上的演员参演电影的信息进行抓取,包括参演电影名和电影上映日期;

掌握技能:少量的NLP问题,即将演员的名字从汉字转换成拼音

4、尝试:对豆瓣上的演员参演电影的电影名和上映日期进行抓取。

 

随后我会贴出代码,由于代码有重复工作的情况,所以只贴出部分代码。