近几年随着电影市场的热度提升,大量资本涌入电影行业。但中国电影产业尚处于发展阶段,市场的不成熟使得电影投资呈现出高风险高回报的特点。为了追求高收入,通常办法是使用众多的“明星大腕”,通过粉丝效应提升票房,当然只有极少的作品获得成功。但是却造成了明星身价飙升,制作成本随之提升的后果。究其原因,明星大碗虽然有庞大的粉丝基础,但明星与作品的匹配程度、明星粉丝特性与作品的匹配程度都是影响最重票房的重要因素。所以我们需要一种办法评估主创对电影票房的贡献价值,使用此办法来作为评估电影投资分析控制的一个依据,而微博这样的社交媒体是社交信息主要的交换平台。
数据要求:通过分析电影从上映前一月到上映后一个月的相关微博数据、明星粉丝数据和发布内容等,评估出一个贡献值。数据可以从微博爬取,电影基本信息可使用豆瓣等垂直网站数据。注意点:1.分析结果要突出明星效应对票房带来的“贡献”,这里的“贡献”需要区分正面贡献和负面贡献。正面贡献指可能带来的票房或者观影意愿的增加;负面是对票房带来的负面以形象,打消了观影意愿。此题不是简单的情感分析,要突出购票转化的影响。
R:1.读了很多遍我还是有点懵逼,但是也不是每个问题都有清晰的目标,有时候,目标是在多次幼稚的尝试中慢慢清晰的.所以,不断进步,先定简单目标,然后来添加.
R1:1,爬取指定电影的主创信息,简单起见,用豆瓣的定义来定义:主创是指:导演,编剧,主演.
8/13/17****************************************
p1:找组内其他python的人试试.
8/1617
p1:利用urllib和beautifulsoup完成,python果然比java简洁,但确实有股脚本语言的味道,和shell给我的感觉很像.
R2:格式化信息,进行微博部分的爬取.
8/28/17
交由组内成员处理,整个项目移动至 GitHub
R3:语义分析,确定得分正负
8/28/17
国人开发的中文语义库 snownlp ,感觉还行,正在学习中.
9/23/17
彻底完工了,我主要负责算法方面的设计,自认做的不好,略微用了点算法皮毛.
但最起码算是告一个段落,我想的是以后学到好用的知识,可以再加进来,有没有名次没关系,把题目做精,找到核心的东西才是我想要的.