论文笔记:A Survey on Tag Recommendation Methods 下

感想

因为综述文章太长了,我这里分成了两部分,紧接着介绍。

 

公开的挑战

我们把这些挑战分为(a)标签语义问题,(b)稀疏性,(3)垃圾邮件(spamming),(d)评估问题。

 

 

同义词,一词多义和其它语义挑战

 

打标签是一个不完美,自然和进化的,在文字和他们的参考之间建立语义联系的过程。Folksonomy的词奔雷就有模糊性,因为不同的用户用不同的方式给目标打上标签。进而产生了语义问题。例如一词多义,同义词和基本级别的变体(“basic level” variation)。

多义词是一个词有许多个相关的意义。例如,标签“apple”可能涉及水果,苹果电脑,或者苹果零售店。在信息检索背景下。多义性冲淡了查询的结果,因为它返回了相关的,但是本质上不相关的物品。在标签推荐中,多义性会导致物品之间的不合适的相连。例如,标签“fruit”可以错误的推荐到苹果产品的一个目标,属性标签fruit和apple频繁的共现,这个问题通过考虑更复杂的标签共现来得到部分解决,即考虑多余两个标签的共现情况。例如,假定“computers”也是一个与目标相关的标签,这个目标已经有“apple”和“computers”标签了,因此,综合起来考虑先前指派的标签或者其它目标对象的上下文证据,这样会化解这个模糊性问题。

同义词或者有相同或相近意义的不同的词,在标签系统中也是一个挑战。当索引和分类目标的时候,它可能会导致冗余性和不一致性。不一致性会使得通过标签索引或检索所有相关目标变得很困难,选择作为标签的项很难和一个用户一致。例如,关于television的标签可以是“television”或者“tv”。当标签是合作创建的(broad folksonomy),用户要么需要广泛的接收惯例,要么接受他们一定处理多种或更复杂的查询,用以满足他们的信息需求。在folksonomies上没有对同义词或者同形同音异义词进行控制。甚至是相同次的不同的遍历,例如plural和singular.一个简单的对这些词的变体的解决方法是进行词干提取(perform stemming),即便找他们词根形式的变体。

模糊性,统一性和多义性是我们在许多情况下控制词汇表的理由,可是,在流行的Web2.0应用中,控制词汇表的做法会完全不合适,因为,Web2.0是一个动态并且增长的系统。

GolderHuberman提出的另一个挑战是基本级别问题(basic-level problem),即沿着一个现需特殊性描述一个目标,从特殊到一般。例如,“cat,” “cheetah,” “animal”都是描述一个特别实体的合理的方式。可是,不同的人可能以不同的级别来考虑这些项,使得项能有用并且合理的描述问题中的目标。基本级别是和人类交互最直接相关的,对于大多数人,猫科动物的基本级别是“cat,而不是“animal”或者“siamese”或者“persian”。根据所考虑用户的专业水平,在用户中构成基本层次的系统差异(systematic variation across usersin what constitutes a basic level, depending on the level of expertise of the considereduser)。用户个性化和专业知识水平的差异是通过考虑个性化管理的,用户的兴趣可以从他们打标签的历史获得,并且当为他们推荐标签的时候,也会将其历史考虑在内。

 

稀疏性和冷启动

稀疏性与数据集的注释覆盖率有关,Bao等人(2007)指出特定页面可能根本不会打标签,例如:

(1)    新出现的网络页面,页面太新了或者不出名。

(2)    页面和Hub页面相关(hub页面的例子包括tumblr.com和hubpages.com),用户倾向于仅仅给hub页面注释。

(3)    不感兴趣的Web页面。

Almeida等人发现在流行的Web2.0应用中,19%的目标都是缺乏标签的,例如Youtube, LastFM和 YahooVideo。即使所有的目标都有标题,可能会从文本特征中提出候选标签,例如目标的描述,但是54%的目标都缺少描述信息。只要标签建议使得内容组织和描述更加方面,这可以成为一个推荐标签的动机,。

冷启动问题是直接和稀疏性相关的,因为缺乏信息,特别是当目标没有标签指派的时候。正如我们在这节讨论的“基于内容的方法”,基于内容的技术是一个缓解这个问题的通常做法,利用其它与目标对象相关的文本特征,可以从用户的反馈中获得信息(例如,单击数据表明哪一个标签是其选择的或者先前未推荐的)。最后,文本信息的完全缺失的情况下,可以利用主要目标的内容,通常是丰富的媒体,例如视频和图像。

 

Spamming

Tag spam由误导标签(misleading tags)组成,误导标签的产生是为了增加一些资源的可视性,或者是用来迷惑用户。它可以影响大多数推荐算法,因为算法利用标签作为主要的数据源。例如,spammer把错误标签的指派大量的目标,这个标签可能被标签推荐系统认为是高度相关的,因为在数据集上同时出现其他的标签。
Koutrika等人(2008)提出了打标签和用户打标签行为的框架,他们旨在回答例如下面的问题:一个打标签系统在结果退化前可以有多少恶意用户?什么类型的打标签系统最能抵抗得住恶意攻击(malicious attacks)?使用可信的版主找到不好的帖子的努力和影响是什么?(What would be the effort and the impact of employing a trusted moderator to find bad postings?)系统可以自动的保护不受spam的侵害吗?例如,通过利用用户的标签对?研究者提出了一个文档排序算法为一个给定标签指派,这利用的打标签这的可靠性(reliability of the taggers)。研究者得出,社交知识可以使得基于标签的查找对spammers更有容忍度,社交知识的例子只是一个标签的巧合(tag coincidences),即多个用户指派给一个对象相同标签的频率。

评估

有三种评估标签推荐的方法:

(1)    利用先前用户指派的标签作为ground truth的完全自动的方法。

(2)    依赖于目标推荐用户的手工方法。

(3)    依赖于额外用户去评估推荐的手工方法。

方法1已经用于大部分的标签推荐研究中,包括个性化标签推荐和通常的内容推荐。它包含一个对目标预指派标签的子集作为期望答案(expected answer),即作为这个目标的相关标签。对于个性化标签推荐,特别是标签的子集用于期望淡淡。这是最廉价的评估方法,使得我们可以在多个数据集和方法下做实验,可是,它通常标签推荐有效性的下界,而有些推荐的标签,即使不是期望的答案,可能仍然被认为是和给定目标或用户相关的。

于是方法2可能使我们所想要的,当覆盖不同的系统和大量的不同方法时,这个方法会变得很难实施。为此,在线情况下的真实用户应用中标签推荐的评估由Jaschke等人提出来的,他们提出了一个依赖于在推荐标签中存储的用户点击率的评估框架,这个框架用于2009PKDD Discoverty Challenge的在线标签推荐任务中,主要是Bibsonomy应用中的评估。

相比较下,大多数过去的研究采用了之前的自动方法,一些过去的尝试使用额外的志愿者来品股推荐。可是,这种方法不会比自动方法好。真正的,在个性化标签推荐情况下,这个方法可能根本不充分,额外的评估可能会引入意义偏见(significant biases)和评估的不精确性,这些都是很难隔绝的,可能是分析失效。为此,我们认为最好的方式,先前的个性化标签推荐的工作都没有采用手工的额外志愿者(external volunteers)进行评估。

在基于目标的标签推荐的情境下,用户偏见可能不是关键的。可是,它仍然存在:只有这个目标的拥有者可以最终判断这个标签的相关性。影响评估的程度不清楚,可能不可忽略:如果外来的评估者对目标话题不是非常熟悉,他们的评估不可能对结果有好的影响。为了最小化可能的影响,大量的评估者可能需要去做有统计意义的评估结果,这会增加代价。

于是,即使他可能是对标签推荐的手工评估的描述,特别是对真是应用下的用户,但是自动评估的方法早就建立起来了,这是由于它在大实验中的低代价和可拓展性。在某种意义上,自动评估是模拟人工评估,其中评估者是目标的拥有者自身。在任何情况下,大规模标签的手工评估仍然是一个公开的挑战。

词汇

 Taxonomy (生物)分类学,分类系统;

Corpus 全集,文集; 资金,本金;[计]语料库; 器官;

Folksonomies 大众化分类

Stipulating  (尤指在协议或建议中)规定,约定,讲明(条件等)( stipulate的现在分词 ); 规定,明确要求;

Profile   侧面,半面; 外形,轮廓; [航]翼型; 人物简介;

given that  考虑到; 假定; 已知;

参考文献

[1]. Fabiano Muniz Belém, Jussara M.Almeida, Marcos André Gonçalves:A survey on tag recommendation methods.JASIST 68(4): 830-844 (2017)

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

农民小飞侠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值