挖掘用户的网络价值
本文为个人阅读这篇论文时的一些理解和记录,肯定还有很多理解不到位的地方,如有不足之处还请批评指正。
一、预备知识
- 社交网络中的影响最大化问题最早源于本文中提出的病毒式营销。
- 影响最大化问题:假设有用于估计社交网络中个体相互影响程度的数据, 在此基础上推销一种新产品,使得它最终能被该网络中大多数用户所接纳。那么应该如何在控制成本的前提下选择传播过程中的初始用户(种子节点)呢?
- 病毒式营销:公司较低成本的营销方式(例如:通过提供免费样品或优惠卷的方式)去向市场中某些用户推销公司的新产品;然后,这些用户再利用自身的影响力,将产品推荐给自己的朋友;接着,朋友再推荐给他们的朋友;通过这种口口相传(word-of-mouth)的方式,公司的产品就会像病毒一样迅速传播蔓延,从而达到有效推广的目的。
二、论文的主要工作
- 本文提出了病毒式营销中的数据挖掘应用。将社交网络中的顾客看做节点,并将它们在其它节点的影响建模为一个马尔科夫随机场。我们提出了一个从一个协同过滤数据库中挖掘社交网络的方法,并且用这些方法来优化营销策略。并使用EachMovie的协同过滤数据库实验验证了这个方法。
三、论文结构及简介
1. 说明
- 直接营销和病毒式营销的基本说明和举例介绍。(内容略)
- 数据挖掘的一个关键应用是帮助公司决定哪个客户值得去营销。营销不仅要考虑客户的固有价值(推销后他会购买所产生的价值) ,还要考虑他的网络价值(客户影响其他人去购买产品而带来的利润) 。
- 互联网的发展给数据挖掘带来了必要的网络信息。本文提出了一个通用的框架用于获取哪些用户值得被营销(最优化选择),并估计每个选择的客户获取成本。
- 本文提出的框架基于将一个社交网络建模为一个马尔科夫随机场(Markov random fields) ,每个客户的购买概率是一个包括用户的固有价值和网络价值的函数。
- 本文的社交网络来自对一个协同过滤数据库进行数据挖掘的结果。
2. 将市场建模成为一个社交网络
-
定义:
-
分析购买行为未知的用户,利用最大熵求其分布。
购买行为未知的用户:
然后利用最大熵估计(让每个购买行为未知的客户的分布尽量均匀):
给定Ni、Y、Xi对于每个客户都是独立的
为了计算方程2,本文提出了一个贝叶斯模型:
其中P(Y,Mi|Ni)=P(Y,Mi|Ni=1)P(Xi=1|Ni) + P(Y,Mi|Ni=0)P(Xi=0|Ni),另外对于所有的k来说P(Xi|Ni) 、P(Mi|Xi)、P(Xi)、P(Yk|Xi)都可以通过计数获取。 -
期望利润的计算
定义:
c:给一个客户营销的代价(设置的常量)
r0:没有采取营销策略时给客户售卖产品得到的收入
r1:采取营销策略时给客户售卖产品得到的收入
独立考虑营销对客户的期望利润提升(采取营销-未采取营销)
忽视了她给其他用户带来的影响
ELP:expected lift in profit
M0:全零的向量
当选择特定的营销策略时,获得的总体利润提升为:
如果Mi=1则ri=r1,如果Mi=0则ri=r0。
|M|是M中为1的个数。
目标是:找到当ELP最大时M的值,直观的意义就是找到使期望利润提升最大时M的组合是?直接求M的组合是很难的,只有用一个近似过程代替:single pass: 每一步i,如果ELP(Xk,Y,fii(M0))>0,设Mi=1;否则Mi=0。 Greedy search: 设置M=M0 循环设置Mi,当ELP(Xk,Y,fii(M0))>ELP(Xk,Y,M)时将Mi设置为1。这个方法和当前最大的不同是:M后续的更改将通过M的较早更改进行评估。先前的方法都只针对M0评估。 Hill-Climbing search: 设M=M0 。当i1=argmaxi{Xk,Y,fii(fii(M))}时Mi1=1。当i2=argmaxi{Xk,Y,fii(fii1(M))}时Mi2=1。重复上述设置直到无i满足以上条件。
3. 从协同过滤数据库中挖掘社交网络
- 为从协同过滤数据库中提取一个社交网络,将空间(X,Y)看做一个随机样本。Y是每个item(商品)属性的集合,Xi代表客户i是否对该商品评分。
- user(i,j)的相似度使用Person correlation coefficient:
Rik是客户i对第k商品(item)的评分。R-i是客户i平均的打分值。 - 客户i没有对商品k进行评分,他的评分可以预测为:
其中:Ni是与客户i最相似的ni个用户集合。Ni可以从整个数据库考虑,但是由于数据的“噪声”和计算效率等方面的原因,Ni通常小很多。 - 如果对商品(本文中使用的是电影数据)的评分是含蓄的(yes/no),可以使用一个贝叶斯模型P(Xi|Ni)。否则的话使用系统预测的评分(方程7)作为客户i购买商品k的概率。
4.实验研究
这里主要介绍使用协同过滤数据库挖掘出的社交网络进行建模。
- Y={U1,Y2,…,Y10}作为电影的流派。
P(Y|Xi)是用户偏好的模型。
Wij邻居权重,使用皮尔逊相关系数调整。 - 要计算利润提升ELP,需要计算P(Xi|Xk,Y,M)。根据方程3和方程8我们需要计算:P(Xi|R~i)、P(Xi)、P(Mi|Xi)、P(Yk|Xi)、P(Ri|Y)。
- P(Rj|Y)可以使用贝叶斯估计而得。P(Rj|Y)、P(Yk|Xi)、P(Xi)可以使用m-估计(m=1)来计算。
- P(Mi|Xi)可由以下方程得出(其中α>1并且P(Y,Mi=1)=P(Y,Mi=0)):
- P(Xi|R~i)使用一元线性函数建模。
论文的中的其他内容省略
四、论文中出现的基础知识简介
- 马尔科夫随机场:马尔科夫随机场是具有马尔科夫特性的随机拿种地打比方,如果任何一块地里种的庄稼的种类仅仅与它邻近的地里种的庄稼的种类有关,与其它地方的庄稼的种类无关,那么这些地里种的庄稼的集合,就是一个马尔可夫随机场。(百度百科定义,这里不就班门弄斧了)
- 贝叶斯模型:
- 贝叶斯预测模型是运用贝叶斯统计进行的一种预测.贝叶斯统计不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用先验信息。
- 托马斯·贝叶斯(Thomas Bayes)的统计预测方法是一种以动态模型为研究对象的时间序列预测方法。在做统计推断时,一般模式是:先验信息+总体分布信息+样本信息→后验分布信息
- m-估计器:
当我们通过在全部事件的基础上观察某事件出现的比例来估计概率时,例如:P=nc/n.,其中nc为该类别中的样本数量,n为总样本数量。若n=5,当P=0.6时,则nc为3。多数情况下该比例是对概率的一个良好的估计。但当nc很小时估计会较差,例如:P=0.08,样本中同样有5个样例,那么对于nc最可能的取值只有0,。这会导致两个问题:
1、nc/n产生了一个有偏的过低估计概率。
2、当此概率估计为0时,将来的查询此概率项将会在贝叶斯分类器中占统治地位。原因是贝叶斯公式中计算得量其他所有概率项都将乘以此0值。
为了避免此问题,所以需要采用一种估计概率,即如下定义的m-估计:(nc+mp)/(n+m)
nc为类别中的样本数量,n为总样本数量,p为将要确定的概率的先验估计,m为等效样本大小的常量。 - 最大熵:
熵是表示物质系统状态的一种度量,用它老表征系统的无序程度。熵越大,系统越无序,意味着系统结构和运动的不确定和无规则;反之,熵越小,系统越有序,意味着具有确定和有规则的运动状态。熵的中文意思是热量被温度除的商。负熵是物质系统有序化,组织化,复杂化状态的一种度量。
注: 目前对一些数学知识的理解还不到位,这导致对他们之间的联系和应用的理解产生一定的难度,希望通过今后的学习可以完善这方面的不足,并对本文和影响最大化的理解更为深刻。