【论文翻译】跨异构网络学习挖掘竞争关系

跨异构网络学习挖掘竞争关系

跨异构网络学习挖掘竞争关系

摘要

发现和监控竞争对手是公司在全球市场保持领先地位的根本。现有的研究主要集中在挖掘单个数据源中的竞争关系,而竞争信息通常分布在多个网络中。在这个问题中,如何发现潜在的模式并利用异质知识来避免有偏见的方面是一个具有挑战性的问题。本文研究了在异构网络中通过学习来最小化竞争关系的问题。我们使用Twitter和专利记录作为数据来源,并对竞争关系背后的模式进行统计研究。

我们发现这两个网络表现出不同但复杂的竞争模式。我们提出的模型,主题因素图模型(TFGM),定义了一个潜在的主题层来连接两个网络,并学习了一个半监督学习模型来分类实体(如公司或产品)之间的关系。我们在两个真实的数据集上测试了该模型,实验结果验证了该模型的有效性,与其他方法相比平均提高了46%。

1导言

“竞争战略是管理者最关心的一个领域,关键取决于对行业和竞争对手的微妙理解”[21]。事实上,在世界各地的公司都在努力争取有限的资源和市场,竞争在各个领域都变得极为激烈。检测和监控竞争对手成为企业制定营销策略的关键问题。传统的竞争对手检测通常基于观察、猜测或销售报告。然而,手工收集竞争关系,避开世界上无数的公司/产品是非常不可行的。

近年来,一些学者对竞争对手检测问题进行了研究。例如,Bao等人[1]提出了一种称为CoMiner的算法来识别给定实体的竞争对手。在这项工作中,竞争对手的排名是根据几个指标的组合,包括相互信息,比赛计数和坦率的日期信心。Sun等人[22]研究了比较web搜索问题,在这个问题中,用户输入一组实体(关键字),系统试图从web上找到这些实体的相关和比较信息。然而,这两项工作的动机只是挖掘竞争关系,而不是试图揭示两个实体在哪个主题上竞争(如游戏、硬件或操作系统)。

在这项工作中,我们的目标是对挖掘实体(如公司或产品)之间竞争关系的问题进行系统的调查。与相关研究不同的是,本文尝试从文本文档(专利)和社交网络(Twitter)两个数据源进行利用和学习。我们之所以使用多个数据源是为了避免信息不对称带来的潜在问题。例如,一些新兴公司或初创公司可能没有任何专利记录。我们遇到的一个挑战是如何将两个来源的信息正确地交织在一起。毕竟,Twitter通常是一个公众讨论外部明显功能的地方,而专利记录记录了实现这些功能的内部核心技术。在内容和视角上,它们完全不同。理想情况下,该方法应将两个信息组合在一起,形成一个异构网络,从而挖掘其中的竞争关系。

为了清楚地说明这个问题,图1给出了一个竞争关系的例子。中间的节点是两个面板:Google和Microsoft。每个链接上的标签表示链接的两个公司相互竞争的字段,以及连接的节点成为竞争对手的概率。例如,有一些众所周知的竞争关系:谷歌在社交网络上与Facebook竞争,在搜索引擎上与微软竞争。其他一些竞争关系(如微软与金山软件2的竞争)并不明显,可能会被手动分析忽略,也可以在图中找到。这样的竞争关系图将对公司设计市场战略有很大帮助。这一问题非同小可,并带来了一系列挑战:

  • 多方面的。一个公司经常与不同的主题联系在一起,并且在每个领域都有不同的竞争对手来响应这些主题。提取主题并将每个竞争关系与主题信息联系起来是很重要的。
  • 用户生成的内容。用户生成的内容是挖掘实体关系的重要来源。例如,采用可比问题来确定可比实体。我们还从Twitter数据中发现了一个“10分钟现象”:如图4(a)所示,如果一个用户在10分钟内的tweet中提到了两家公司,那么这两家公司成为竞争对手的可能性为44%,这是几率的25倍。另一方面,用户生成的数据非常不平衡和稀疏:在我们的实验中,只有不到20%的公司名称在Twitter上被提及。
  • 异类来源。专利记录是挖掘竞争关系的另一个重要来源,特别是在技术方面。不同于用户生成的内容,专利包含丰富的,但也有许多不相关的“信息”,如披露声明。一个有趣的问题,但令人头疼的是,如何将用户生成的con帐篷和专利信息结合起来,以挖掘竞争关系。

本文精确地定义了通过跨异构网络学习来挖掘竞争关系的问题,并提出了一种半监督主题因子图模型(TFGM)。提出了一种有效的学习算法。我们在一个大型专利网络和Twitter网络上对所提出的模型进行了评估。实验结果表明,提出的模型比其他几种方法的性能有了很大的提高(F1平均提高46%)。综上所述,通过本研究,我们有以下发现:

  • 社交网络信息对于竞争对手的竞争非常重要。事实上,仅仅基于Twitter上的公司属性,我们在挖掘竞争关系方面可以获得比仅仅挖掘专利数据更好的性能(+6-57%)。
  • 与仅通过单个网络进行学习相比,利用异构网络进行学习可以显著提高挖掘性能(+17-45%)。
  • 有趣的是,我们的实验为社会平衡理论提供了一些经验性的观点:“我的敌人的敌人就是我的朋友”。我们发现在竞争网络中有高程度(90%以上)的平衡三位一体。

组织第2节阐述了问题。第三节介绍我们发现的数据集和一些观察结果。第4节解释了我们提出的模型,并描述了模型学习的算法。第5节介绍了我们验证方法有效性的实验,包括其设置、基线方法和结果。最后,第六节回顾了前人的一些相关工作,第七节总结了本文的工作。

2问题定义

我们先介绍一些必要的定义,然后阐述这个问题。为了使事情具体化,我们将以公司为例来解释竞争关系挖掘问题。这个问题可以很容易地推广到其他实体,如产品。

我们考虑两个异构数据源:专利和Twitter。我们从专利记录中提取公司、发明家和专利。我们创建了一个公司网络G=(V,E,S),E⊆V×V,其中V表示一组公司,E表示公司之间的关系,S是描述公司相关属性的矩阵,其中每一行对应一个公司属性值向量。例如,公司的属性可以是公司拥有的专利的发明人,也可以是专利描述中出现的关键字。此外,我们用社交网络信息来扩充公司网络。具体来说,我们考虑的是那些讨论过公司的Twitter用户,以及那些将公司名称命名的Twitter用户。因此,增强网络被表示为G=(V,E,S,U,M),矩阵U的每一行表示发布了包含相应公司名称的tweet的用户,矩阵M的每一行表示包含相应公司名称的tweet。作为结论,S与文本文档(专利)数据源相关。U和M与社交网络(Twitter)数据源相关。我们进一步假设每个公司都与一个主题分布相关联。具体而言,我们有以下定义:

定义1。公司主题模型。专利d的主题模型θd是单词{P(w |θd)}的多项式分布。然后将公司vi视为主题模型的混合体,表示为θvi,从公司拥有的专利中提取。

主题模型的基本假设是,专利中出现的单词是从每个主题对应的分布中取样的,即P(wθd)。因此,与每个主题相关联的问题能力最高的单词会暗示主题所代表的语义。例如,“搜索引擎”主题可以用关键字“搜索”、“广告”和“排名”来表示。

对于每个边e∈E,我们将它与一个标签y∈{0,1}相关联。y=1表示对应的两家公司存在竞争关系。鉴于此,我们可以定义本文所述的问题:

问题1. 竞争关系挖掘。给定所有公司的网络,G=(V,E,S,U,M)和主题模型{θ},目标是学习一个预测函数f:(E | G)→Y来推断每个公司之间关系的竞争标签。

有两件事值得一提。第一种是在网络中,我们可能有一些标记的数据,即一些在线数据库中的标记竞争关系,但对于大多数关系,这些标记是未知的。二是网络理论上是一个完整的网络。我们可以使用一些参数或人类知识来控制网络的密度。例如,只有当两个公司的相似性(基于内容或网络信息)大于预定义的阈值时,我们才在它们之间添加一条边。

3. 数据和观察

在介绍我们的竞争对手检测方法之前,我们首先介绍了我们从数据中观察到的一系列发现。

3.1数据收集

在本研究中,我们考虑两个数据来源:专利和Twitter。我们从USPTO3中收集了所有专利(3770411项专利),其中我们从中提取了195263家公司和2430375名发明家。对于每个公司,我们都用它作为查询搜索Twitter,检索返回的最上面的tweets,然后进一步提取用户信息。截至目前,我们共收集了87603名Twitter用户撰写的1033750条微博,覆盖1393家大公司。在寻找基准数据时,我们转向雅虎!最后4,把它作为基本真相来源5。每个公司名称都作为查询发送,以获取竞争对手列表。

将随机选取的两个公司作为整个数据集中的竞争对手的概率(1.59%,已验证)分配为基线概率。我们将观测结果与观测结果进行比较,以了解不同的网络特征对概率的影响。

3.2观察结果

我们从几个方面评估了专利信息和Twitter如何反映公司的竞争关系:(1)两家公司是竞争对手的概率,取决于他们是否发布了类似的专利或雇用了相同的发明人;(2)两家公司是竞争对手的概率,条件是他们的名字在同一条推文中被提及或被同一个用户提及。我们还研究了竞争网络中是否存在“我敌我友”的现象。

专利分析 社会理论同亲性表明,相似的个体倾向于相互关联[14]。在这里,我们展示了两个公司的相似度如何与它们之间的竞争关系相关。我们考虑两种类型的相似性。第一个是基于两公司专利描述中出现的词语。第二种是基于普通发明家的数量,即过去在不同时期为两家公司工作的发明家。对于前者,我们通过PLSA分别生成两个公司vi和vj的两个主题分布θvi和θvj[7](详见§4)。两公司的相似性采用余弦相似性计算:

图2(a)清楚地显示,当两个公司的相似性从零增加时,它们成为竞争对手的可能性迅速增加,成为两个随机公司的四倍。我们观察到了类似的分析发明家的模式,如图2(b)所示。当两个公司没有发现在“Ventor”中使用的常见情况时,他们成为竞争对手的概率下降到1.32%,低于基线概率。然而,随着检测到更多的常见发明家,概率超过基线数据,并且不断增加。

Twitter分析 我们研究了两个公司在tweet上合称时成为竞争对手的可能性。图3显示了分析结果。令人吃惊的是,当两个公司的名字在一条微博上同时被提及时,这两家公司成为竞争对手的可能性就变得比偶然性高出10倍以上。图3(b)进一步表明,当tweet的数量增加时,这种可能性将继续增加。

除了tweet层面的共现,我们还对用户层面进行了分析。图4(a)显示,当用户在10分钟内(可能在不同的tweet中)提到两家公司时,这两家公司作为竞争对手的相似性是偶然性的25倍。图4(b)进一步说明了当我们将时间间隔设置得更大时,可能性会下降。我们假设,由于tweet有长度限制,当用户在一条tweet中讨论一家公司或其产品时,她可能会跟进另一条tweet,提及其竞争对手或竞争对手的产品。

我的敌人的敌人是我的朋友吗? 我们研究竞争对手是否形成一个均衡的网络结构。“我的敌人的敌人是我的朋友”这一现象是社会平衡理论提出的潜在的平衡三位一体现象之一[6]。

特别是,我们将数据分为三个领域:技术、能源和健康。在每个领域中,公司都分为三类。假设e_{ij}=1表示v_{i}公司和v_{j}公司是竞争对手,而e_{ij}=0表示不是。给定一个三元组(v_{i},v_{j},v_{k}),我们比较(e_{ij}=1e_{ijk}=1)⇒e_{ik}=0(表示为C-C-N)和(e_{ij}=1e_{ijk}=1)⇒e_{ik}=1(表示为C-C-C)的可能性。图5显示了三个领域中平衡的三元组的概率,从中我们可以得到以下总结:我的敌人的敌人不一定是我的朋友,但很难再是我的敌人。

综上所述,根据以上统计,我们有以下发现:

  1. 不出所料,类似的公司往往是竞争对手,概率比偶然性高4倍。
  2. 社交网络信息是竞争对手非常重要的指标。两个公司在同一条推特上成为竞争对手的可能性是男性的10倍,而在10分钟内被同一用户提及的可能性则增加到25倍。
  3. 我的敌人的敌人不一定是我的朋友,但不应该再次成为我的敌人(有90%的可能性)。

4我们的方法

在本节中,我们首先简要讨论两个基本模型:主题模型和因子图。然后,我们提出了一个主题因子图模型(TFGM),该模型利用了两个基本模型的强大功能,并在统一的学习框架中描述了竞争对手检测问题。

4.1初步

主题模型我们首先讨论了基本的统计主题模型,这些模型已经成功地应用于许多文本挖掘任务[2,7]。这些模型的基本思想是用K个主题的有限混合模型对文档进行建模,并用模型拟合数据集来估计模型参数。两种基本的统计主题模型是概率潜在语义分析(PLSA)[7]和潜在Dirichlet分配(LDA)[2]。例如,用PLSA生成的集合D的对数似然性如下所示:

其中n(w,d)表示单词w在文本文档d中的出现,是主题,在PLSA模型中要估计的参数是(或)。PLSA的图形表示示例如图6(b)所示。图中θ表示数据集中每个文本文档的主题分布。鉴于此,我们可以将每个顶点(或实体,如公司、产品)的主题分布定义为与相关的文本文档(如专利)上的主题分布的混合,即。

因子图 因子图由两层节点组成,即变量节点和因子节点,它们之间有链接。整个变量集上的联合分布可以分解为所有因素的乘积。因子图可以通过一些有效的算法学习,如和积算法[12]。

图6(c)给出了一个用因子图建模问题的例子,它包含了实体对的信息和它们之间关系的标签。对于每一对实体(j),我们在因子图中创建一个实例节点。为了便于解释,我们用分别表示。隐藏变量代表关系的标签,表示有竞争关系,表示没有,yk=?未知。我们在因子图中的目标是为未知的分配一个高精度的值。

4.2专题因子图模型

我们提出了一个新的模型称为主题因素图模型(TFGM)挖掘竞争关系。正如我们在§3中所说,具有相似主题分布的实体更有可能成为竞争对手,反之亦然,竞争对手可能具有相似的主题分布。因此,该模型的基本思想是将因子图和主题模型结合起来,同时进行学习。

给定一个网络G=(V,E,S,U,M)和一些标记关系Y,我们的目标可以形式化为最大化以下后验概率:

其中D是所有文本文档的集合。式(4)右侧的第一项可根据主题模型定义,第二项可定义为因子图。此外,为了结合竞争对手可能具有相似主题分布的直觉,我们定义了一个正则化器,类似于[31]中的图调和函数,以量化两个实体的主题分布之间的差异:

其中K是主题总数。

通过积分方程.(4) 和(5)一起,我们可以为我们的问题定义以下目标函数:

其中λ是平衡两项重要性的参数。

现在我们讨论如何实例化目标函数。我们可以使用任何统计主题模型来定义p(D |Θ)。在本文中,我们使用PLSA。对于p(Y | G,D,Θ)的形式化,我们研究了相应实体的相关性和属性,并根据我们讨论的直觉定义了以下三个因素。

-属性因子:表示给定属性向量席的的后验概率,其中,和被类似地定义。

–平衡三角形因子:反映Y中每个集团之间的相关性。一组三个标签节点是一个集团,如果这些节点代表三个项目之间的关系。

–主题因子:表示给定两个对应实体的主题分布的后验概率。

结合上述因素,我们

其中是从输入网络派生的三元组。这三个因素可以用不同的方式实例化。在这项工作中,我们使用指数线性函数。特别是,我们将这三个因素定义如下:

其中是归一化因子。可以定义为二元函数或实值函数。可以定义为一个指示函数。

最后,通过插入等式。(2) (7-10)转化为式(6),我们得到

其中是参数集合,即是归一化因子。我们的目标是估计一个参数配置,使目标函数最大化。

TFGM的图形表示如图6(d)所示。上层用于主题抽取任务的建模,底层用于竞争对手检测任务的建模。实际上,我们可以把结合起来,作为一个因子函数H来连接这两个任务。我们将)分开,以便在本节的其余部分轻松地解释如何学习模型。

 

4.3 模型学习

为了估计TFGM中的参数,首先考虑λ=0 的特殊情况。在这种情况下,目标函数退化为logpYG ,没有正则函数。为了使logpYG 最大化,我们首先应用PLSA参数估计的一种标准方法&期望最大化(EM)算法迭代计算logpDG 的局部极大值。之后,我们根据式(3)计算Θ 的值,并用梯度下降法最大化logpYG,D,Θ 。我们重复这两个步骤直到目标函数收敛。

关于如何估计PLSA参数的细节,见[7]。在计算pYG,D,Θ 时,我们需要对所有节点(包括未标记的节点)的可能状态进行求和,以规范化Z。为此,我们从已知的节点中推断未标记的标签。YU 表示为根据已知标签推断的标签配置。我们有:

其中

我们引入梯度下降法求解该函数。每个参数μ的梯度计算如下:

这里的一个挑战是直接计算两个期望值。TFGM的图形结构可以是任意的,并且包含循环。因此,我们采用Loopy信念传播(LBP) [20]近似算法来计算Y和YU 的边际概率。然后,我们能够通过对所有标签节点求和来获得梯度。这里重要的一点是,LBP过程需要在学习过程中进行两次,一次用于估计,另一次用于估计 。我们用梯度的学习率ξ更新每个参数。

其中Dvk 表示与vk 相关联的文本文档,代表与实体vi 和vk 相关联的标签。显然,始终保持在等式(14).当步长参数η设置为1时,意味着属于实体vi 的文本文档的新主题分布是来自vi 的竞争对手的所有文档的旧分布的平均值。这与随机游走解释有关。在[19]中也使用了类似的算法。详见算法1。

      在因子图中,我们也可以考虑利用主题模型的结果来帮助挖掘竞争关系;然而,这些话题被平等对待,包括那些可能与比赛无关的话题。相比之下,主题因子图模型通过正则化可以区分“竞争主题”和无关主题,从而更有效地挖掘竞争关系。

5. 实验结果

在本节中,我们验证了所提出方法的有效性。

5.1实验设置

数据准备 我们在评估中考虑了两个数据集:公司和产品。

公司。3中给出了公司数据集的描述。由于没有标准的基本事实来定量评估挖掘竞争关系的绩效,为了评估的目的,我们从雅虎收集了公司之间的竞争关系!金融。具体来说,雅虎!金融为每家公司提供了一份竞争对手名单。6它还将所有公司分为不同的领域(称为部门),如技术、能源和健康。每个公司可以分为两个领域。这样,我们为评估主题级竞争关系挖掘创建了一个基本事实。公司数据集总共包含来自三个领域的1393家公司。

产品。产品数据是从Epinions网站上提取的,该网站是用户对他们购买的产品进行评论的网站。我们提取了两种产品之间的信息,如价格差异、对两种产品进行评论的评论者、将两种产品的名称都作为社交网络功能的评论。支持主题模型的文本信息来自产品评论。该数据集由120个产品、972个产品评论和861个对这些产品发表评论的用户组成。一些示例产品包括佳能550D、佳能5D马克2号(5d mii)、尼康D90、iPhone 4、iPad 2和亚马逊Kindle 2。

评估 我们进行了两种类型的实验来评估所提出的方法。首先是识别全球竞争对手。我们评估了所提出的模型,并将其与精度方面的替代方法进行了比较(Prec.),回忆(Rec。)、F1-测量(F1)和精度(Accu)。.第二个实验是检测特定主题的竞争对手,我们将两个竞争对手v1 和v2 在特定主题z所描述的领域中竞争的概率定义为

在每个实验中,我们在每个类别中随机选取40%作为训练(标记)数据,其余的作为测试(未标记)数据。为了评估主题级竞争对手检测的性能:我们首先确定两家公司是否有竞争关系。之后,给定一个话题z和一个公司v1,我们按pv1,v2z 对其竞争对手进行排名。最后我们将排名与雅虎的基本事实进行比较!根据N位置(P@n)的精度、平均精度和N位置(N@n)的标准化折扣累积收益进行融资。以前在[25]中使用过类似的方法。

我们用以下基线方法比较TFGM。

内容相似度(CS)它计算两家公司的主题分布之间的余弦相似度,如果相似度值大于阈值(0.2),则将公司标记为竞争对手。我们设计它是为了看看无人监督的方法在这个任务中是如何工作的。

推特过滤(TF)它只是将在同一条推文中至少被提及一次的公司贴上竞争对手的标签。也是无监督的方法。

重启随机漫步(RW)。它使用网络信息来识别竞争关系。具体来说,它建立了一个包含三种类型节点的三方图:发明者、公司和专利类别(主题)。对于每个公司节点v和主题节点z,它创建一个从v到z的链接和一个方向相反的链接。然后应用重启随机游走算法[28,27]对竞争对手进行排名。

SVM它使用我们在TFGM定义的所有特征(详见附录)来训练一个分类模型(但是SVM没有考虑已识别的竞争关系之间的相关性)。然后我们用它来预测测试数据中公司对的标签。对于SVM,我们选择LIBSVM [3]。

LR它使用与SVM方法相同的特征。唯一的区别是它使用逻辑回归分类来预测测试数据中标签的方式。这种方法在[15]中被用来预测社交网络中的正面和负面联系。

FGM它用部分标记的数据和我们在4中定义的所有因子训练一个因子图模型。当λ = 0时,该方法也可视为TFGM的特例。这种方法在[26]中被用来对社会关系的类型进行分类。

所有算法都是用C++实现的,所有实验都是在运行Mac OS X的Mac上进行的,Intel Core i7 2.66 GHz,4 GB内存。我们根据经验将TFGM的主题数设置为100,并在所有其他实验中设置参数η = 0.1和λ = 0.5。我们稍后将给出这些参数的灵敏度分析。我们还设置了最大迭代次数I = 500,J = 2 0。总的来说,TFGM的效率是可以接受的。从公司数据集学习需要2个小时。

5.2定量结果

表1显示了在公司数据集上使用不同方法在全球范围内检测竞争对手的结果。我们可以看到,TFGM在所有领域的表现都明显优于CS、TF、RW、SVM和LR(平均F1成绩提高了57.98%)。CS,TF,RW方法只考虑内容信息,导致性能不好。与SVM和LR相比,TFGM的优势之一是利用未标记的数据。本质上,它进一步考虑了数据集中的一些潜在相关性,这些相关性不能仅用标记的训练数据来利用。同时,TFGM也表现出令人满意的稳健性。我们可以看到,SVM和左后在不同的领域有不稳定的表现。比如在Tech。在健康领域,SVM的F1成绩为0.62,降至0.18。这是因为健康领域的竞争关系相当稀少,这使得SVM大多将公司关系贴上不具竞争力的标签。与FGM相比,结合主题模型,TFGM将“竞赛主题”与那些不相关的主题区分开来,并获得进一步的改进(例如,在技术方面+5%的F1分数。域)。

检测话题级竞争对手有两种方法。一种是我们在上面5.1中介绍的方法。然而,有一种不同的方法用于重新开始的随机漫步:如果我们移除除其中一个之外的所有“主题节点”,结果将是相应主题中的竞争对手。有许多方法可以实现第一种方法,例如,所有基线。然而,由于篇幅的限制,我们只呈现TFGM产生的结果。此外,基线方法在最初的几个步骤中产生了很差的结果,因此忽略它们是合理的。表2显示了TFGM和RW的比较结果,从中我们可以看出TFGM明显优于RW。

5.3分析和讨论

因素贡献 为了确定不同因素对模型性能的贡献,我们逐个移除它们(首先是平衡三角形因素函数,然后是主题因素函数),然后训练和评估性能。图7显示了忽略因子函数后的F1-Measure分数。我们可以观察到性能明显下降,这表明模型中包含的每个因素对最终结果都有其特定的贡献。

异构网络如何帮助 社会网络和专利网络是我们正在研究的异构网络的两个基本组成部分。为了研究异构网络如何帮助解决这个问题,我们分别排除了这两个数据源。此外,我们设计了另一种方法来利用异构数据源:如果基于单个数据源的方法中的任何一种将两家公司标记为竞争对手,我们将它们视为竞争对手。图8显示了与原始方法相比,这三种方法的F1-Measure。我们可以看到,包含两个组件的模型在性能上大大超过了另外两个不完整的TFGM,这表明我们的模型通过跨异构网络的学习比两个网络中的任何一个都工作得更好。与TFGM相比,P+S的分数大幅下降。它甚至不如基于单一数据源的方法。通过调查,我们发现,如果TFGM-P和TFGM-S中的任何一个错误地将两个实体标记为竞争对手,P+S就会保留错误,这对模型的精度有严重的不利影响。

灵敏度分析 我们进行了两个实验来测试参数η和λ如何影响TFGM的性能。图9显示了η在所有域中的变化趋势(λ固定为0.5)。TFGM在能量和健康领域的η敏感性较低(F1在两个领域的最大差异小于4%)。但是,在Tech。域,精度值随着η的增大而缓慢上升,在η = 0.6后下降。回忆值总体上保持稳定,但它从η = 0.1迅速下降到η = 0.2。然后固定η = 0.1,看看F1-分数如何通过改变λ而变化。图10显示,分数在开始时增长缓慢,但当λ变大(> 0.5)时下降得更快。

5.4定性结果

在本节中,我们展示了从实验中生成的一些示例,以展示我们方法的有效性。

主题级竞争对手分析 我们研究主题级竞争对手案例,以了解文本主题信息如何帮助竞争对手分析。表3显示了几个例子的结果,列出了一个主题下的主要竞争对手。正如在描述图形设计的主题#4中,虽然我们的模型给出的顶级竞争对手,英伟达和欧特克,是两个行业领导者。

另一方面,给定一对竞争对手,我们试图找出他们在哪个领域竞争。表4根据p(v1,v2|z)显示了每对竞争对手的前两个主题。我们可以看出,我们的模型发现三星和苹果实际上与“通信”等主题相关,表示手机,“程序”、“处理器”,表示计算机——与真实情况相对应。类似的结果可以在与微软和谷歌相关的话题中看到。

产品之间的竞争关系 我们的模型很灵活,可以很容易地应用于其他数据集。我们用它来寻找产品之间的竞争关系。表5显示了与FGM进行比较的示例结果。正如我们所看到的,TFGM和FGM都认为尼康D90是佳能相机的竞争对手。但是FGM错误地将Kindle 2和550D称为竞争对手。在我们的研究下,我们发现很多用户讨论了Kindle 2或550D如何优于旧版本,这使得这两款产品在“版本”这个主题上的分布彼此相似。因此,这有助于给他们贴上竞争对手的标签。然而他们显然不是竞争对手,“版本”也不是竞争的经典话题。FGM被这种现象误导了,而TFGM将这个无关紧要的话题与有价值的话题区分开来。

另一个有趣的事实是,TFGM将iPhone 4和550D视为竞争对手。这是可行的,因为从客户的角度来看,具有出色拍照性能和类似价格的iPhone 4是550D的一个相当好的替代方案。同时,虽然iPad 2内置了摄像头,但并不是经常用来拍照的。因此,TFGM并没有把它当作相机的竞争对手。

6.相关工作

在本节中,我们从三个方面回顾了相关工作:竞争对手检测、推特上的研究和专利挖掘。

竞争对手检测 针对网络上的竞争对手检测进行了类似的研究。陈等人[4]利用语义分析和文本挖掘技术,提出了一个从用户网站中抽取信息并学习其背景知识的框架。一个同样可以推断竞争分析的算法是CoMiner,即Bao el al .[1]提议。CoMiner对公司的竞争候选人、领域和竞争实力进行网络规模的挖掘。然而,他们的方法与我们的有很大不同。我们不仅要考虑文本信息,还要考虑社交网络信息。另一项相关工作是刘等人从竞争对手的网站上发现意外信息的方法[17]。这项工作侧重于分析竞争对手的特征,而不是检测它们,这显然不同于我们正在努力做的事情。包括李等人[16]和杨等人[30]在内的其他相关著作通过从在线文本文档中检测描述比较的关键词来提取可比实体。这两个作品研究单一的数据源,而我们的方法利用异构网络。

推特研究 现有的推特研究主要包括:Mathioudakis和Koudas [18]提出了一个系统,TwitterMonitor,从推特的内容中提取新兴话题;【13、29、9、23】主要侧重于识别Twitter中有影响力的用户或者考察和预测用户的推文行为;Kwak等人【13】对Twitter网络进行研究,感知Twitter的一些显著属性;Hopcroft等人【8】在Twitter上探索互惠关系预测问题;唐等人[24]已经开发了一个框架,用于通过跨异构网络的学习来对社会关系的类型进行分类。据我们所知,文献中很少有作品尝试使用Twitter或其他微博数据进行竞争对手检测。

专利挖掘 在本文中,我们还使用了一组专利信息来帮助解决竞争对手检测问题。关于专利挖掘的相关著作也很多。Kasravi等人[11]提出了一种从专利库中发现商业价值方法,Jin等人[10]引入了一个新的专利维护预测问题并提出了一种解决方法,而Ernst [5]将专利信息用于包括竞争对手监控在内的战略技术管理。但这些作品只考虑专利信息,而我们将社交网络和专利结合在一起,更有效地解决了竞争对手检测问题。

7.结论和未来工作

在本文中,我们研究了通过跨异构网络学习来挖掘竞争关系的问题。发现并分析了反映社会网络和专利信息的竞争关系的一些特征。然后,我们在一个半监督框架中正式定义了这个问题,并提出了一个主题因子图模型(TFGM),用于检测具有给定社交网络和文本文档属性的竞争对手。在TFGM,因子图和主题模型被合并。提出了学习参数以推断未知关系的有效算法。在两个不同的数据集上进行了实验,结果大大优于几种选择。

另一个值得思考的有趣话题是如何发现潜在的合作者。我们相信合作者分析的方法将类似于我们在本文中提出的方法。在未来的工作中,我们将尝试将现有的竞争检测方法应用到协作检测中,并确定是否需要涉及其他理论或算法。

致谢。该工作得到了国家自然科学基金(编号61073073)、国家基础研究计划(编号2011CB302302)和国家重点基金研究(编号60933013、编号61035004)的资助。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值