会议以一个shell脚本的流程为讨论起点。
该Shell大致的功能为:
->通过启动该Shell来搜集当前库中的视频信息
->Map方法:用来整理视频信息,对每个视频的点击次数、曝光次数进行抓取,以及对视频的新鲜度进行统计
->Reduce方法:对不同Vid的视频进行归档,
->Hot_New方法:对当前视频的数据进行统计,通过点击次数对总曝光次数取除法算出点击率,再通过点击率和新鲜度得分对所有视频进行综合排序,推出TOP50
->Up_date方法:对新上传的视频用上述方法加入到TOP50中进行排序,同样保留TOP50
->Abandon方法:对新上传视频进行简单的筛选,对名字长度不合格,关键词敏感的进行丢弃
会议的重点大致围绕在:
1:如何经过数据分析得出热点
综合点击率、新鲜度得分
2:如何对上传信息进行识别和筛选
对名字长度过短的进行丢弃,对关键词敏感的视频进行丢弃
3:对于用户建模的可行性进行一定的探讨
-->可以统计用户的偏好tag
-->可以统计用户的Playing list
-->可以统计用户的登陆信息
--X 用户建模目前无法顾及用户平台
--X偏好tag目前的算法统计结果偏差较大
以上,
进入公司的第一场会议,难得我一无所知也能跟得上几位前辈的思路。
Figting ! ! ! ! !