[论文学习]An Effective Approach for Mining Mobile User Habits:一种高效挖掘移动用户习惯的方法

原文:

Cao H, Bao T, Yang Q, et al. An effective approach for mining mobile user habits[C]//Proceedings of the 19th ACM international conference on Information and knowledge management. ACM, 2010: 1677-1680.

ABSTRACT

用户与移动设备的交互行为对于理解用户习惯起着重要的作用。在本文中,我们提出挖掘移动设备捕获的用户交互和上下文之间的关联,或者从上下文日志中挖掘用户行为模式,以表征移动用户的习惯。通过对收集的现实数据进行广泛的实验,明确地验证了我们挖掘有效行为模式的方法的能力。

1.INTRODUCTION

移动设备捕获的丰富的用户交互信息可以用于了解用户习惯,这可以带来良好的商业价值,如有精准广告营销和个性化推荐。 用户与移动设备交互的不同特征是它们通常与易变的环境相关,例如等待公共汽车,驾驶汽车或进行购物。 直观地,一些用户交互是上下文(场景、情景)感知的,也就是说,这些用户交互的发生受用户的上下文的影响。 例如,一些用户在乘坐公共汽车到工作场所时,更愿意用他们的智能手机听音乐,但在其他情况下很少做同样的事情。 因此,我们认为用户交互记录与相应上下文之间的关联可用于表征用户习惯。

上下文日志收集移动用户的历史记录数据和交互记录,从而可以作为挖掘行为模式的数据源。 然而,挖掘行为模式并非一个微不足道的问题,因为传统的关联规则挖掘不能解决这个问题。 为此,我们提出了一种行为模式挖掘的有效方法,其将上下文日志作为时间序列的上下文记录,并通过考虑其出现的时间范围来计算上下文的支持。 实际数据集的实验结果清楚地表明,我们的方法胜于行为模式挖掘中传统的关联规则挖掘方法。

2. PROBLEM STATEMENT

为了简化行为模式挖掘的问题,我们首先定义一些相关的概念如下。

这里写图片描述

上下文特征表示上下文数据的类型,例如日期,位置,音频等级。为了简化操作上下文(例如上下文比较),我们要求上下文特征值对以预定义的上下文特征顺序排序。

这里写图片描述
交互记录捕获用户与移动设备交互的情况,例如听音乐,消息会话或Web浏览。

这里写图片描述

上下文记录捕获最详细的可用上下文以及在时间间隔期间用户交互的发生。 我们提到“可用”,因为上下文记录可能会错过某些上下文特征的值,尽管应该被收集的上下文特征的集合是预定义的。 此外,如果在时间间隔内没有发生交互,交互记录可以是空的(表示为“NULL”)。

上下文记录整合了移动用户的历史记录数据和交互记录,因此可以作为挖掘行为模式的数据源。然而,挖掘行为模式并不是一个微不足道的问题,因为传统的关联规则挖掘方法会遇到上下文和交互记录的发生不平衡的问题。例如,假设Sam在工作日AM8:00-9:00期间在乘坐公共汽车时听音乐。当出现上下文{(Is a holiday?: No),(Time range: AM8:00-9:00 ),(Transportation: On vehicle)}时,我们通常认为山姆此时倾向于听摇滚音乐,但交互发生的确切时间点不确定。因此,与上下文的发生记录{(Is a holiday?: No),(Time range: AM8:00-9:00),(Transportation: On vehicle)}相比,Listening to rock music 的交互是非常稀少的,这是导致传统的关联规则挖掘方法难以发现的行为模式{(Is a holiday?: No),(Time range: AM8:00-9:00 ),(Transportation: On vehicle)} ⇒ Listening to rock music.。人们可能会寻求一种方法,首先提取包含非空交互记录的上下文记录,然后应用传统的关联规则挖掘。这种替代的方法失去了判别信息,即指定上下文之间没有交互发生的可能性。因此,计算的置信度可能是无意义的。问题的详细解释可以在[2]中找到。

从上下文日志中,我们观察到,如果用户交互受上下文 Ci 影响,当 Ci 连续出现在几个相邻的上下文记录中时,相应的交互记录 I 通常与时间范围内的 Ci 共同出现。因此,我们建议不仅在不同的上下文记录中考虑上下文和交互记录的同时出现,而且还要考虑到上下文整个时间范围内的共同出现。具体来说,我们将上下文日志作为时间序列的上下文记录,并通过考虑其出现的时间范围来计算上下文的支持度。对于候选行为模式 CiI ,支持度(表示为 SupCiI )仍然通过计算 Ci I 共同发生的上下文记录来计算。但是对于上下文 Ci ,支持度(表示为 Sup(Ci) )在两种不同的情况下分别计算。如果 Ci 连续出现在几个相邻的上下文记录中,并且所有这些上下文记录仅包含空交互记录,则我们将计数一次。否则,我们将以这些上下文记录中的非空交互记录的数量计数。我们区分两种不同的情况,因为这样我们确保 Sup(Ci) 总是不小于 ISup(CiI) ,这是计算置信度的基本假设。

行为模式挖掘的正式问题陈述如下。

def5

ps:

支持度(Support)的公式是:Support(A->B)=P(A U B)。支持度揭示了A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。

置信度(Confidence)的公式式:Confidence(A->B)=P(A | B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。如果置信度度为100%,则A和B可以捆绑销售了。如果置信度太低,则说明A的出现与B是否出现关系不大。

支持度: P(A∪B),即A和B这两个项集在事务集D中同时出现的概率。

置信度: P(B|A),即在出现项集A的事务集D中,项集B也同时出现的概率。

3. ALGORITHM FOR BEHAVIOR PATTERN MINING

大多数传统的关联规则挖掘算法将挖掘程序分为两个阶段。在第一阶段,从数据库中找到所有频繁项集。在第二阶段,规则是从频繁项集中产生的,并且计算其置信度。这种策略可能会显着降低总内存需求,因为关联规则的数量可能随着频繁项目的数量呈指数增长。 例如,给定频繁项集 abc ,可能的关联规则是 abcacbbcaabcbac

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值