摘要:
随着Web2.技术的不断发展和普及,以新浪微博为代表的社交媒体吸引了数以亿计的用户.社交媒体开始在人们的日常生活和工作中发挥越来越重要的作用,与此同时,也给研究人员带来不少新的问题与挑战.学术界和工业界都投入了较多精力去研究社交媒体数据,以期快速响应海量社交媒体用户的高并发操作,并有效实现社交媒体的推荐,监控和分析等功能. 本文针对社交媒体分析型查询处理和性能测试问题开展研究,主要贡献如下: 1.研究新浪微博这一具有代表性的社交媒体,并从中抽取出用户信息,社交网络和微博,分别建立多元组模型和图模型;针对社交媒体的特征,在这些模型的基础上,定义了三类查询:社交网络查询,热点查询和时间轴查询. 2.为面向社交媒体分析型任务的系统设计了一套性能测试方案:提供真实数据集,设计三类查询的十九个具体实例,制定吞吐量,延时,扩展性三项指标,用以衡量待测系统性能的优劣.采用该方案的性能竞赛测试结果表明,现有相关研究工作较难处理社交媒体的多属性热点查询和时间轴查询问题. 3.针对多属性热点查询处理存在的问题,从社交媒体数据的存储与管理出发,将社交媒体上的多属性热点查询问题转化为键值存储器上的多属性查询问题,为开源的Cassandra系统设计了一种基于格雷码的索引构造方法,并集成分布式缓存服务器加以优化,实验表明该方法较好地解决社交媒体数据上的多属性查询问题. 4.针对时间轴查询处理存在的问题,着重研究了社交媒体上的首页时间轴查询问题,这类时间轴查询对并发量和实时性要求较高.通过研究社交媒体数据负载的特点,利用社交媒体的在线社区特性,并结合社交媒体用户访问频率的差异性,提出一种负载敏感的首页时间轴查询处理办法,实验表明该方法在系统开销和性能表现上优于现有策略. 综上,本文通过制定性能测试方案,分析总结了社交媒体数据上的查询处理问题;设计了一种基于格雷码的索引构造方法,用以处理社交媒体数据管理方案一键值存储器上的多属性查询问题,并通过实验验证该方法的有效性和高效性;设计了一种负载敏感的首页时间轴查询处理策略,用以处理社交媒体上的时间轴查询问题,并通过实验验证该方法在系统开销和性能表现上的优势.
展开

754

被折叠的 条评论
为什么被折叠?



