一、 简述对大数据分析和挖掘的理解
答:全球大数据时代(Age of big data)已然来临,尤其在电信、金融、电子商务、智能搜索引擎等行业,几乎已经到了“数据本来就是业务”的地步。在包括语音、计算机网络、因特网和各种其它方式的通信计算融合的电信业,大数据分析与挖掘是电信运营商的一大挑战,更是指引业务发展与改进的一大机遇。以下从这两方面加以阐述。
挑战:
1、数据量大且内容多样,海量数据已经不可避免,如何实现有效地对数据进行存储及进行海量的在线数据分析是一个难题,数据类型多样性变大,现今出现了日志型、文本、图像、多媒体、关系型数据等各种类型的数据;
2、多源数据且维度丰富: 数据来自多行业、多品牌且数据维度十分宽广,数据预处理也非常容易出错;
3、可视化:由于数据的扩展性增加,使得传统的数据挖掘分析软件如SPSS、SAS、Weka、Clementine等难以承担起数据可视化的任务;
4、数据挖掘应用模型的局限性:现在的数据挖掘应用模型大多是针对一些特定业务的数据建立起来的模型,很难应对环境的改变,不具通用性。
电信业数据挖掘应用的机遇与前景:
1、在网络性能上,对于大数据的挖掘分析,能有效捕捉网络质量等指标,洞察网络质量、网络利用率和工艺采用率状况,指引运营商做出明智的决策以提高运营质量,降低运营风险与成本;
2、在收入方面,针对大数据量的用户行为与使用习惯分析,可以提供良好的用户体验质量并长期赢得顾客“芳心”;
3、在用户使用方面,针对于用户话务套餐、互联网等资源使用进行流失分析(Life Table建模),可以挖掘出客户流失预测模型及使用心理,减少用户流失、探索潜在用户;
4、在网络安全方面,将数据挖掘技术应用到异常流量检测,建立流量变化模型,能捕捉到异常用户针对WAP网关等网络资源的恶意攻击,快速发现网络异常行为并实施防御。
5、在舆情信息方面,电信运营商可以提取大量网络用户的使用记录并结合网络爬虫技术,发现互联网舆情的传播途径,从构建国家安全网络的角度有效遏止负面舆情的大范围传播。
6、此外,分布式云计算等技术的创新与发展为数据挖掘的前进铺下了康庄大道。
二、 互联网用户行为分析方法
数据源:
原始记录1:
用户ID(唯一身份编码) + 访问时间点 + 访问链接时的IP地址 + 访问URL链接 + 当前访问URL链接的上一级URL
原始记录2:
用户ID(唯一身份编码) + 使用时间点 + 使用软件时的IP地址 + 使用软件标识
互联网内容:
从互联网爬取如上原始记录中用户访问过的URL内容,分析其内容体现了什么兴趣偏好。
问题:
基于以上数据源,如何描述“用户ID(唯一身份编码)”的互联网行为特征?
请简述思路。
答:Step1:根据以上两种原始记录的格式,建立的数据表结构如下:
Table 1. 原始记录集1
用户ID 访问时间点 访问链接时IP地址 访问URL链接 当前访问URL的上级URL
USERID Time_Acc IP_Connection URL_AccID(见Table3) URL_PreID(见Table3)
Table 2. 原始记录集2
用户ID 使用时间点 使用软件时的IP地址 使用软件标识
USERID Time_ST URL_ST STID
Table 3. 互联网内容集
URL_ID URL Key_words(Top 20) Interest(Top 5)
1 http://www.... Data-mining,Telecommute Data-mining
Step2:从以上三个表进行编程可以提取如以下某电信用户的行为特征:
用户ID号:133****5142
周会话数:用户平均一周登入网络的次数
周会话均时长:用户一周网络在线时长平均值
用户软件偏好:用户偏好使用的一款或几款互联网软件(可使用阀值决定筛选)
用户兴趣偏好:用户最喜欢的某个或几个兴趣领域(可使用阀值决定筛选)
用户时段偏好:用户最喜欢在哪个时段访问互联网
针对于这5个维度对用户进行聚类分析(k-menas即可),对用户进行分群,对不同类用户进行不同的引导。
对于用户的基本互联网行为特征,可根据以上数据库表进行统计与分析。但对于深入的互联网用户行为分析则有待进一步Step 3的进行。
Step 3:根据用户访问URL页面的深度进行数据提取建立会话,如下:
用户ID 会话号 会话开始时间 会话结束时间 会话路径
USERID Session_ID Time_start Time_finish P1P2P34P45…
注:以上表USERID与Session_ID为主键
可进一步做以下应用分析与研究:
1、 网络用户群体的兴趣偏好迁移;
2、 大型网站用户群体的网页预测模型(可使用动态Markov链模型、Top-K预测模型、会话模式序列聚类算法、时间序列分析等方法);
3、 使用用户访问序列聚类或协同推荐算法等技术,可构建对互联网用户的内容推荐系统等;
4、 建立Term-User Matrix(兴趣-用户矩阵),对访问用户数大的一些包含暴力、淫秽、反动信息网页所属网站进行查处(需要进行访问量大的网页的语义匹配)。
三、 舆情信息分析方法
数据源:
原始记录:
用户ID(唯一身份编码) + 访问时间点 + 访问链接时的IP地址 + 访问URL链接 + 当前访问URL链接的上一级URL
互联网内容:
从互联网爬取各大论坛、微博或客户指定网站的内容。
客户需求:
客户指定的关注的内容、搜索关键字。
问题:
基于以上数据源,如何发现舆情信息、如何分析信息的正负面倾向,如何分析舆情信息传播路径,如何分析舆情信息的关联性?
请简述思路。
答:首先,对于以上数据源可以构建三个数据表结构:
Table 1. 原始记录
用户ID 访问时间点 访问链接时IP地址 访问URL链接 当前访问URL的上级URL
USERID Time_Acc IP_Connection URL_AccID(见Table2) URL_PreID(见Table2)
Table 2. 互联网内容
URL_ID URL DNS Key_words Content_type Frequence
1 http://... 所属网站名 关键字 内容分类(主题) 链接分享次数/时
Table 3. 客户指定的关注内容、关键字
USERID Content_focus Keyword_focus
133****5142 用户关注的内容(包括链接URL) Data-mining
发现舆情:在建立以上三个表的基础上,按时间顺序(以小时为单位)建立各个Content_type(话题或主题)的时间序列变化曲线图,每个时刻点仅取出几个讨论(或分享)最大的主题,舆情的变化尽在曲线图中,为了实现精确可视化,建立一个仅包括时刻点与主流舆情主题的动态数据表,这样能直观地发现在不同时间段主流舆情的动向。最终得到每个小时里传播最快的几种舆情是什么。
分析正负舆情:对于舆情的正负面信息,现在各在主流微博或社交网络做得比较薄弱。需要人工地植入一个负面舆情语义匹配字典(需不断加以完善),对主流舆情信息来源的URL内容进行语义及内容匹配。如果URL所包含的内容负面信息字典匹配值超过一定阀值,则认为是负面舆情,可进行网页封杀,实现舆情控制的人工智能化。
分析舆情的传播途径:舆情一般经由潜伏、成长、蔓延、爆发、衰退及死亡期,以上提出的方法不仅可以发现处于蔓延与爆发期的舆情,对处于潜伏与成长期的负面舆情也具有较强的监控力度。一个主流的舆情可能有几个不同的主要信息来源,但对于处于爆发期的舆情进行传播须逆向分析,首先找到信息源头并建立一个信息来源点的用户传播树从而建模出舆情的传播模型与规律。
分析舆情的关联性:以上建立的一个在时间序列上舆情图,可对不同舆情进行关联与相关性分析,使用皮尔逊相关系数等指标进行相关性分析,分析不同舆情的发展是否有正相关或负相关特性。
四、 数据挖掘模型设计
基于以上对用户的行为特征刻画,以及对信息的分析跟踪,如何挖掘关注某内容的用户群,请简述挖掘算法及思路。
答:在关注某内容的用户群的挖掘上,要分以下步骤:
1、 确定内容主题,并提取出此主题的内容信息。这个主题包含以下的信息
主题ID 主题内容 相关主要信息来源(URL ID号)
1 江南Style 23,103,347,1026,5067
不同URL来于不同站点,其表格如下
URL ID 链接来源站点
23 人人网
103 新浪weibo
1026 腾讯weibo
5067 中娱网
2、 根据用户对某主题不同内容信息的浏览时间、分享、评论等行为特征信息取得用户对此链接的评分值,建立用户链接矩阵(USER-URL matrix),下图为矩阵假设值:
URL ID1 URL ID2 … URL IDn
USERID1 123 34 44 205
USERID2 325 45 65 107
USERID3 678 2 22 105
USERID4 456 133 25 113
在这一步中,关注此主题的所有用户都已提取完毕,对于针对此主题的用户群体差异见以下步骤
3、 对以上USER-URL matrix进行数据维度的规范化处理,推荐使用Z-Score规范化变换。
4、 最后,可把用户(USERID)作为个案,URL ID作为不同维度进行k-means聚类,在不断的实验中确定合适的聚类数目。最终得到各个聚类中心,可以知道关注于此主题的不同用户子群使用的是哪种类型的站点进行内容传播、对于此主题的关注度是多高、同类别子群中的具体用户与群中心的差异性多大(在对源数据进行量化处理后,可直接用R语言或SPSS工具进行处理)。
以上答案只是本人当场作答,错误之处在所难免,望看客指点,呵呵....