论文笔记：A Survey on Tag Recommendation Methods 下

最新推荐文章于 2022-06-22 11:15:52 发布

农民小飞侠

最新推荐文章于 2022-06-22 11:15:52 发布

阅读量864

点赞数

分类专栏：推荐系统

本文链接：https://blog.csdn.net/w5688414/article/details/78242189

版权

推荐系统专栏收录该内容

14 篇文章 6 订阅

订阅专栏

感想

因为综述文章太长了，我这里分成了两部分，紧接着介绍。

公开的挑战

我们把这些挑战分为（a）标签语义问题，（b）稀疏性，（3）垃圾邮件（spamming），（d）评估问题。

同义词，一词多义和其它语义挑战

打标签是一个不完美，自然和进化的，在文字和他们的参考之间建立语义联系的过程。Folksonomy的词奔雷就有模糊性，因为不同的用户用不同的方式给目标打上标签。进而产生了语义问题。例如一词多义，同义词和基本级别的变体（“basic level” variation）。

多义词是一个词有许多个相关的意义。例如，标签“apple”可能涉及水果，苹果电脑，或者苹果零售店。在信息检索背景下。多义性冲淡了查询的结果，因为它返回了相关的，但是本质上不相关的物品。在标签推荐中，多义性会导致物品之间的不合适的相连。例如，标签“fruit”可以错误的推荐到苹果产品的一个目标，属性标签fruit和apple频繁的共现，这个问题通过考虑更复杂的标签共现来得到部分解决，即考虑多余两个标签的共现情况。例如，假定“computers”也是一个与目标相关的标签，这个目标已经有“apple”和“computers”标签了，因此，综合起来考虑先前指派的标签或者其它目标对象的上下文证据，这样会化解这个模糊性问题。

同义词或者有相同或相近意义的不同的词，在标签系统中也是一个挑战。当索引和分类目标的时候，它可能会导致冗余性和不一致性。不一致性会使得通过标签索引或检索所有相关目标变得很困难，选择作为标签的项很难和一个用户一致。例如，关于television的标签可以是“television”或者“tv”。当标签是合作创建的(broad folksonomy),用户要么需要广泛的接收惯例，要么接受他们一定处理多种或更复杂的查询，用以满足他们的信息需求。在folksonomies上没有对同义词或者同形同音异义词进行控制。甚至是相同次的不同的遍历，例如plural和singular.一个简单的对这些词的变体的解决方法是进行词干提取（perform stemming），即便找他们词根形式的变体。

模糊性，统一性和多义性是我们在许多情况下控制词汇表的理由，可是，在流行的Web2.0应用中，控制词汇表的做法会完全不合适，因为，Web2.0是一个动态并且增长的系统。

Golder和Huberman提出的另一个挑战是基本级别问题（basic-level problem），即沿着一个现需特殊性描述一个目标，从特殊到一般。例如，“cat,” “cheetah,” 和 “animal”都是描述一个特别实体的合理的方式。可是，不同的人可能以不同的级别来考虑这些项，使得项能有用并且合理的描述问题中的目标。基本级别是和人类交互最直接相关的，对于大多数人，猫科动物的基本级别是“cat”,而不是“animal”或者“siamese”或者“persian”。根据所考虑用户的专业水平，在用户中构成基本层次的系统差异（systematic variation across usersin what constitutes a basic level, depending on the level of expertise of the considereduser）。用户个性化和专业知识水平的差异是通过考虑个性化管理的，用户的兴趣可以从他们打标签的历史获得，并且当为他们推荐标签的时候，也会将其历史考虑在内。

稀疏性和冷启动

稀疏性与数据集的注释覆盖率有关，Bao等人（2007）指出特定页面可能根本不会打标签，例如：

（1）新出现的网络页面，页面太新了或者不出名。

（2）页面和Hub页面相关（hub页面的例子包括tumblr.com和hubpages.com），用户倾向于仅仅给hub页面注释。

（3）不感兴趣的Web页面。

Almeida等人发现在流行的Web2.0应用中，19%的目标都是缺乏标签的，例如Youtube, LastFM和 YahooVideo。即使所有的目标都有标题，可能会从文本特征中提出候选标签，例如目标的描述，但是54%的目标都缺少描述信息。只要标签建议使得内容组织和描述更加方面，这可以成为一个推荐标签的动机，。

冷启动问题是直接和稀疏性相关的，因为缺乏信息，特别是当目标没有标签指派的时候。正如我们在这节讨论的“基于内容的方法”，基于内容的技术是一个缓解这个问题的通常做法，利用其它与目标对象相关的文本特征，可以从用户的反馈中获得信息（例如，单击数据表明哪一个标签是其选择的或者先前未推荐的）。最后，文本信息的完全缺失的情况下，可以利用主要目标的内容，通常是丰富的媒体，例如视频和图像。

Spamming

Tag spam由误导标签（misleading tags）组成，误导标签的产生是为了增加一些资源的可视性，或者是用来迷惑用户。它可以影响大多数推荐算法，因为算法利用标签作为主要的数据源。例如，spammer把错误标签的指派大量的目标，这个标签可能被标签推荐系统认为是高度相关的，因为在数据集上同时出现其他的标签。
Koutrika等人（2008）提出了打标签和用户打标签行为的框架，他们旨在回答例如下面的问题：一个打标签系统在结果退化前可以有多少恶意用户？什么类型的打标签系统最能抵抗得住恶意攻击（malicious attacks）？使用可信的版主找到不好的帖子的努力和影响是什么？（What would be the effort and the impact of employing a trusted moderator to find bad postings?）系统可以自动的保护不受spam的侵害吗？例如，通过利用用户的标签对？研究者提出了一个文档排序算法为一个给定标签指派，这利用的打标签这的可靠性（reliability of the taggers）。研究者得出，社交知识可以使得基于标签的查找对spammers更有容忍度，社交知识的例子只是一个标签的巧合（tag coincidences），即多个用户指派给一个对象相同标签的频率。

评估

有三种评估标签推荐的方法：

（1）利用先前用户指派的标签作为ground truth的完全自动的方法。

（2）依赖于目标推荐用户的手工方法。

（3）依赖于额外用户去评估推荐的手工方法。

方法1已经用于大部分的标签推荐研究中，包括个性化标签推荐和通常的内容推荐。它包含一个对目标预指派标签的子集作为期望答案（expected answer），即作为这个目标的相关标签。对于个性化标签推荐，特别是标签的子集用于期望淡淡。这是最廉价的评估方法，使得我们可以在多个数据集和方法下做实验，可是，它通常标签推荐有效性的下界，而有些推荐的标签，即使不是期望的答案，可能仍然被认为是和给定目标或用户相关的。

于是方法2可能使我们所想要的，当覆盖不同的系统和大量的不同方法时，这个方法会变得很难实施。为此，在线情况下的真实用户应用中标签推荐的评估由Jaschke等人提出来的，他们提出了一个依赖于在推荐标签中存储的用户点击率的评估框架，这个框架用于2009PKDD Discoverty Challenge的在线标签推荐任务中，主要是Bibsonomy应用中的评估。

相比较下，大多数过去的研究采用了之前的自动方法，一些过去的尝试使用额外的志愿者来品股推荐。可是，这种方法不会比自动方法好。真正的，在个性化标签推荐情况下，这个方法可能根本不充分，额外的评估可能会引入意义偏见（significant biases）和评估的不精确性，这些都是很难隔绝的，可能是分析失效。为此，我们认为最好的方式，先前的个性化标签推荐的工作都没有采用手工的额外志愿者（external volunteers）进行评估。

在基于目标的标签推荐的情境下，用户偏见可能不是关键的。可是，它仍然存在：只有这个目标的拥有者可以最终判断这个标签的相关性。影响评估的程度不清楚，可能不可忽略：如果外来的评估者对目标话题不是非常熟悉，他们的评估不可能对结果有好的影响。为了最小化可能的影响，大量的评估者可能需要去做有统计意义的评估结果，这会增加代价。

于是，即使他可能是对标签推荐的手工评估的描述，特别是对真是应用下的用户，但是自动评估的方法早就建立起来了，这是由于它在大实验中的低代价和可拓展性。在某种意义上，自动评估是模拟人工评估，其中评估者是目标的拥有者自身。在任何情况下，大规模标签的手工评估仍然是一个公开的挑战。

词汇

Taxonomy （生物）分类学，分类系统;

Corpus 全集，文集; 资金，本金;[计]语料库; 器官;

Folksonomies 大众化分类

Stipulating （尤指在协议或建议中）规定，约定，讲明（条件等）( stipulate的现在分词 ); 规定，明确要求;

Profile 侧面，半面; 外形，轮廓; [航]翼型; 人物简介;

given that 考虑到; 假定; 已知;

参考文献

[1]. Fabiano Muniz Belém, Jussara M.Almeida, Marcos André Gonçalves:A survey on tag recommendation methods.JASIST 68(4): 830-844 (2017)

农民小飞侠

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
2
评论
论文笔记：A Survey on Tag Recommendation Methods 下

感想因为综述文章太长了，我这里分成了两部分，紧接着介绍。公开的挑战我们把这些挑战分为（a）标签语义问题，（b）稀疏性，（3）垃圾邮件（spamming），（d）评估问题。同义词，一词多义和其它语义挑战打标签是一个不完美，自然和进化的，在文字和他们的参考之间建立语义联系的过程。Folksonomy的词奔雷就有模糊性，因为不同的用户用不同的方式给目标打上标签...
复制链接

扫一扫