NO3 第一个大数据问题

近几年随着电影市场的热度提升,大量资本涌入电影行业。但中国电影产业尚处于发展阶段,市场的不成熟使得电影投资呈现出高风险高回报的特点。为了追求高收入,通常办法是使用众多的“明星大腕”,通过粉丝效应提升票房,当然只有极少的作品获得成功。但是却造成了明星身价飙升,制作成本随之提升的后果。究其原因,明星大碗虽然有庞大的粉丝基础,但明星与作品的匹配程度、明星粉丝特性与作品的匹配程度都是影响最重票房的重要因素。所以我们需要一种办法评估主创对电影票房的贡献价值,使用此办法来作为评估电影投资分析控制的一个依据,而微博这样的社交媒体是社交信息主要的交换平台。

数据要求:通过分析电影从上映前一月到上映后一个月的相关微博数据、明星粉丝数据和发布内容等,评估出一个贡献值。数据可以从微博爬取,电影基本信息可使用豆瓣等垂直网站数据。注意点:1.分析结果要突出明星效应对票房带来的“贡献”,这里的“贡献”需要区分正面贡献和负面贡献。正面贡献指可能带来的票房或者观影意愿的增加;负面是对票房带来的负面以形象,打消了观影意愿。此题不是简单的情感分析,要突出购票转化的影响。
R:1.读了很多遍我还是有点懵逼,但是也不是每个问题都有清晰的目标,有时候,目标是在多次幼稚的尝试中慢慢清晰的.所以,不断进步,先定简单目标,然后来添加.
R1:1,爬取指定电影的主创信息,简单起见,用豆瓣的定义来定义:主创是指:导演,编剧,主演.

8/13/17****************************************
p1:找组内其他python的人试试.
8/1617
p1:利用urllib和beautifulsoup完成,python果然比java简洁,但确实有股脚本语言的味道,和shell给我的感觉很像.

R2:格式化信息,进行微博部分的爬取.

8/28/17
交由组内成员处理,整个项目移动至 GitHub

R3:语义分析,确定得分正负

8/28/17
国人开发的中文语义库 snownlp ,感觉还行,正在学习中.
9/23/17
彻底完工了,我主要负责算法方面的设计,自认做的不好,略微用了点算法皮毛.
但最起码算是告一个段落,我想的是以后学到好用的知识,可以再加进来,有没有名次没关系,把题目做精,找到核心的东西才是我想要的.
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值