2017年4月20号
1.聚类是一种重要的数据挖掘方法,同时具有广泛的应用场景。结合聚类相关知识,回答一下问题:
1)简单描述k-means算法;(7分)
如何选择初始聚类中心,什么时候会进行数据归一化处理;(8分)
3)介绍一个把聚类作为“数据挖掘功能”或“数据预处理功能”的应用场景; (10分)
2.某产品的用户登录表结构如下:
create table login(
uid number(15) not null,--用户编号
nick varchar2(25) not null,--昵称
login_time time not null,--登录时间
server varchar2(20) not null,--服务器编号
ip varchar2(20) not null,--登录(ip));
请编写SQL语句查询:
1) 每天各服务器登录用户数;(5分)
2)每天登录次数超过2次(不包括2次)的用户数;(10分)
3)在2017-03-01--2-17-03-31期间,每个用户的最后一次登录时间及登录ip;(10分)
3.某手机直播平台中,若用户关注了主播成为其粉丝,当主播下次开启直播时,他可以给其粉丝发放弹窗通知,请回答以下问题:
1)你会用哪些指标反应目前弹窗的使用及用户反馈情况;(10分)
2)当用户关注主播数量较多时,会对用户造成消息骚扰。你会用什么方法,优化弹窗提醒,做到精确推送呢?(15分)
4.“BI系统”是用来将企业数据进行有效整合,快速准确的提供报表并提出决策依据:
1)你用过哪些BI系统(工具),简述BI系统的功能;(7分)
2)请你画出BI系统整个流程的体系结构(8分)
3)请问如何保证BI系统中数据仓库的数据质量,说说你的看法。(10分)