数据挖掘
文章平均质量分 73
InfSkyline
从事机器学习,数据挖掘方向的研究工作
展开
-
产品健康度模型(4) 打分I
产品健康度模型之打分原创 2015-08-09 10:58:55 · 7117 阅读 · 1 评论 -
产品健康度模型(3) 指标关联性分析
产品健康度模型之指标关联性分析 我们这里做关联性分析的目的就是找出运维指标和运营指标的相关程度。这里重新贴一下指标的结构图: 指标离散化 这里需要说明的是,这些指标可能是连续的,也有可能是离散的,比如我们有运维指标a,b,c{a,b,c},以及运营指标d,e{d,e},这些指标都有可能是离散的或者连续的,并且我们的目标是将运维和运营指标两两计算关联性。这里我们就需要计算{a,d},原创 2015-08-07 13:01:02 · 6873 阅读 · 0 评论 -
产品健康度模型(2) KPI、KQI
产品健康度模型之KPI、KQI 这一节我们介绍运营商面对这些指标通常的做法,我们健康度模型的可行性,以及我们预备怎么做。原来他们怎么做? 原来运营商怎么解决这个问题呢?说白了两个字——人工。 对于一众运维指标,首先每个指标就是一个KPI(Key Performance Index),而很多KPI的加权构成了KQI(Key Quality Index),而KQI的进一步加权形成了POHD(P原创 2015-08-07 11:18:09 · 8010 阅读 · 0 评论 -
宽带离网用户分析(5) Lasso和Group Lasso
宽带离网用户分析之Lasso和Group LassoLasso Lasso,全称为(The Least Absolute Shrinkage and Selectionator operator),是Tibshirani[1]在1996年提出的稀疏特征选择方法。 minβ||Y−Xβ||22+λ||β||1\min_{\beta}||Y-X\beta||_2^2+\lambda||\beta原创 2015-08-05 20:40:11 · 5738 阅读 · 0 评论 -
宽带离网用户分析(6) 不平衡学习
宽带离网用户分析之不平衡学习 机器学习里面有个问题叫做Imbalanced-Learning(不平衡学习),其含义就是不同Label的样本数量差别很大。其实宽带离网用户分析就是一个典型的不平衡学习问题:就拿本实验的徐州宽带用户来说,总用户量为70万,而每个月的离网用户只有不到5000用户,这里正负例样本的比例是140:1,可见是很不平衡。 这里说句老实话,工作的突破点并不是对不平衡学习的处理原创 2015-08-05 22:56:24 · 2164 阅读 · 0 评论 -
宽带离网用户分析(1) 任务介绍
宽带离网用户分析任务介绍 接下来把几个研究生阶段的项目中所用到的关键技术分别做介绍,一来对这些项目的技术做个整理,理清思路,二来也为接下来的应聘做准备。这里先介绍研一做的第一个项目——宽带离网用户分析。项目数据介绍 巧妇难为无米之炊,在我们介绍真正的业务目的之前,我们还是先来看看我们有哪些数据,只有知道我们有了哪些菜,我们才能看菜吃饭~ 我们的数据是电信的后台数据,什么叫后台数据呢?那就是原创 2015-08-02 20:37:28 · 5701 阅读 · 0 评论 -
宽带离网用户分析(3) 建模框架
宽带离网用户分析之建模框架 在介绍了任务和数据的预处理方法以后,我们可以从宏观来看看我们的建模过程了。建模框架 首先,我们得明确我们面对的是一个什么问题,稍微有一点数据挖掘知识的应该知道这是一个典型的二分类问题——给你一个用户,和他的数据,问你他会不会离网? 当然我们之前说过我们有一年的数据。 我们怎样判断该用户是否会离网呢?算命总不行吧,我们有的是之前很多个月的用户数据,这些用户里原创 2015-08-03 11:54:02 · 2893 阅读 · 0 评论 -
宽带离网用户分析(4) 特征选择
宽带离网用户分析之特征选择 前面我们介绍过一些特征抽取的方法(Feature Extraction),现在我们来谈谈特征选择(Feature Selection)。1. 特征选择的重要性 特征其实是机器学习问题里面一个很重要的问题,做图像的人知道,其实图像圈子里面很多人就是做特征的。当今“大数据”的概念各种泛滥,但是“以数据为中心”的观点的确有其道理。 当数据特别多并且不断变化和增长的时候原创 2015-08-03 15:06:14 · 2728 阅读 · 0 评论 -
宽带离网用户分析(2) 数据预处理和特征抽取
宽带离网用户分析之数据预处理 在讨论数据预处理的方式之前,我们还是需要把具体的数据项列出来以便观察。电信后台多源数据项 这里“多源”的意思就是这些数据来自后台不同的部门,有负责硬件网络的,也有维护用户使用记录的部门。 特征抽取 特征抽取的一个重要属性叫“粒度”,凡是特征抽取都会遇到粒度的问题,粒度是否恰当直接关系到模型的性能,我们这边抽取的粒度是天,但是如果涉及到衡量指标的变化趋势的特征原创 2015-08-03 11:34:06 · 3119 阅读 · 0 评论 -
话务预测(5) Ratio
我们的任务是对未来某一天的话务量进行预测(可能是普通工作日,或者节假日)。 其实在项目中最初的任务就是对当年的清明节的话务量进行预测,对于这种一年才会发生一次的时间,我们肯定是需要从往年的该时间段发现有效的Pattern。 其实这种方法也适用于平时话务量的预测,因为每天都有自己的Pattern——星期几,或者这个月的几号。所以我们下面阐述的方法也适用于平时话务量的预测。 还要交代一原创 2015-08-12 20:57:51 · 1331 阅读 · 1 评论 -
话务预测(6) 时间序列特征
介绍一下我们用的几个特征 差分特征 直方图特征 高斯特征 小波特征原创 2015-08-12 21:37:40 · 1432 阅读 · 0 评论 -
话务预测(3) ARIMA
ARIMA(Autoregressive Integrated Moving Average model),中文叫差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动)。原创 2015-08-12 15:36:57 · 2214 阅读 · 0 评论 -
话务预测(4) HMM
隐马尔科夫模型 时间序列预测原创 2015-08-12 20:04:42 · 1335 阅读 · 0 评论 -
话务预测(1) 任务介绍
话务预测(traffic prediciton,这里的traffic就是话务量的意思)。什么是话务量 话务量指在一特定时间内呼叫次数与每次呼叫平均占用时间的乘积。原创 2015-08-11 18:40:22 · 1547 阅读 · 0 评论 -
话务预测(2) 数据
数据项介绍 我们所拥有的是基站上采集的数据,并且是和话务量相关的指标。原创 2015-08-11 20:19:59 · 1288 阅读 · 0 评论 -
产品健康度模型(6) 指标结构管理
产品健康度模型之指标结构管理 因为指标数据的量是超大的,所以指标并不是放在数据库中,而是集群之上,指标一期一期的归库,除了文件名,文件的入库时间,其他没有任何信息。所以目前有哪些产品,这些产品有多少期指标,每一期都有哪些对应指标,指标的相关信息,每个指标的模型参数,都需要我们自己写程序来维护。 我们做的产品指标管理模块是基于文件的,其实要转成基于数据库的很容易。下面就来介绍一下指标管理模块的原创 2015-08-10 00:33:44 · 3663 阅读 · 0 评论 -
产品健康度模型(5) 打分II
产品健康度模型之打分II 上一节我们介绍了怎样凭借单独指标进行打分,这一节我们进一步介绍怎样根据用户的在线操作得到最后的打分。目前计算的结果 到目前为止,我们已经计算了,对于每个运营指标,各个运维指标和他的相关程度,以及各个运维指标的打分模型。 接下俩,只要专家指定每个运营指标的权重,我们就可以利用这些权重去计算最后的打分。打分框架 框架图如下: 这里,黄色方框部分是在每一期原创 2015-08-09 12:26:29 · 3792 阅读 · 0 评论 -
产品健康度模型(1) 任务介绍
产品健康度模型之任务介绍 随着OTT(Over The Top)业务的繁荣,电信运营商基本上成了局外人,折让他们很是捉急,所以正如我们所见的,运营商们也在不断推出自己的OTT业务(动感地带购物商城、天翼购物商城等),不仅如此,运营商还在不断利用自己的网络硬件优势,开拓特色业务,有兴趣的童鞋特意去看看类似于“天翼对讲机”和“车管专家”之类的东西。 相比于腾讯、阿里这样的OTT企业,其实运营商的原创 2015-08-07 10:15:41 · 7952 阅读 · 0 评论