Internet个性化服务的关键技术

最新推荐文章于 2024-09-10 11:05:03 发布

iceidea

最新推荐文章于 2024-09-10 11:05:03 发布

阅读量385

点赞数

分类专栏：技术架构文章标签：应用服务器领域模型数据挖掘浏览器音乐

本文链接：https://blog.csdn.net/iceidea/article/details/83291410

版权

技术架构专栏收录该内容

3 篇文章 0 订阅

订阅专栏

2003-06-27 10:38:55.403

个性化服务涉及的技术较多，如用户建模技术，个性化推荐技术，网站自适应技术，用户隐私保护技术等。但目前研究较多、也是最为关键的两项技术是用户建模技术和个性化推荐技术。

用户建模

个性

化服务的形式多种多样，但无论何种形式，都需要首先建立对用户的描述，然后才能据此提供针对不同用户的个性化服务，因此，用户模型是个性化服务的基础和核心。

简单地说，用户建模就是从用户信息中构建用户模型。图1描述了用户建模与各类个性化服务之间的关系。

不过，仅仅是对用户兴趣的准确描述还不能称为用户建模。作为以计算机平台为依托的个性化服务系统，可计算性是它对用户模型的基本要求。也就是说，个性化服务系统中的用户模型不是对用户个体的一般性描述，而是一种面向算法的、具有特定数据结构的、形式化的用户描述。相应的，用户建模是指从有关用户兴趣和行为的信息（如浏览内容、浏览行为、背景知识等）中归纳出可计算的用户模型的过程。

根据建模过程中用户的参与程度，用户建模技术可以分为用户手工定制建模、示例用户建模和自动用户建模。

1．用户手工定制建模

用户手工定制建模是指用户模型由用户自己手工输入或选择的用户建模方法，如用户手工输入感兴趣信息的关键词列表，或者是选择感兴趣的栏目等。在个性化服务发展的早期，用户手工定制建模是用户建模的主要方法。

MyYahoo是用户手工定制建模的典型代表。由于Yahoo！站点包含的信息繁多，而每个用户真正感兴趣的信息相当有限，为了提高用户的访问效率、使用户能够直接浏览感兴趣的信息，Yahoo！站点1996年推出个性化服务MyYahoo。在用户登录MyYahoo站点后，系统要求用户从成百上千的栏目中手工选择自己感兴趣的栏目。

除MyYahoo外，采用手工定制建模方法的个性化服务系统还有卡内基·梅隆大学的WebWatcher。WebWatcher要求用户输入感兴趣的关键词，系统将输入的关键词作为用户模型，据此进行个性化推荐。

用户手工定制建模方法实现简单，也具有较好的效果，但它存在以下三方面问题：

其一，完全依赖于用户，容易降低用户使用系统的积极性。

心理学研究表明，用户不愿意参与对系统的训练，即使用户知道对系统进行训练会给自己带来好处。对用户而言，易用性是用户衡量服务质量的重要标准，任何一种服务，不管其性能如何，只要享用这种服务需要用户付出很多努力，用户一般都会放弃这种服务，除非别无选择。Yahoo！公司的Manber等人通过对个性化服务MyYahoo用户的分析进一步证实了这一结论。他们发现大多数MyYahoo的用户根本不定制自己感兴趣的栏目，而是接受系统默认的配置作为自己的用户模型。

其二，即使用户乐意手工输入用户模型，用户也难以全面、准确地罗列自己感兴趣的栏目或关键词，从而导致用户模型不够准确。

以MyYahoo为例，栏目的结构是网站设计者按照自己的理解组织的，有些栏目可能包含了用户感兴趣的信息，但是用户根据自己的理解认为该栏目并不包含自己感兴趣的信息，导致用户不能准确地定制用户模型。

又如系统要求用户自己输入感兴趣的关键词作为用户模型，用户可以列出一系列感兴趣主题的关键词，但却未必能够详尽，原因是与同一主题相关的关键词很多，用户很难一一列出。

其三，当用户兴趣发生变化时，用户必须重新输入用户模型。

用户手工定制的用户模型是静态的，一旦用户定制完毕，该用户模型就不会发生任何变化。这种静态的、一成不变的特点显然与用户兴趣固有的渐变特性不符合。经过的时间越长，手工定制的用户模型与用户真实兴趣的差别就越大。当用户模型不能很好地反映用户兴趣的时候，用户将不得不重新手工定制用户模型，这给用户带来了额外的负担。

2．示例用户建模

示例用户建模是指由用户提供与自己兴趣相关的示例及其类别属性来建立用户模型的建模方法。由于用户对自己的兴趣和偏好等最有发言权，因而用户提供的有关自己兴趣的示例最能集中、准确地反映用户的兴趣和偏好等特点。示例一般通过要求用户在浏览过程中对浏览过的页面标注感兴趣、不感兴趣或者感兴趣的程度来得到。浏览过的页面及相应的标注成为用户建模的示例。这里以Syskill&Webert为例介绍示例用户建模方法。

Syskill&Webert是加州大学Irvine分校于1996年推出的个性化推荐智能体。在用户浏览Web的过程中，Syskill&Webert要求用户对每一个浏览过的页面标注“感兴趣”、“不感兴趣”或者“一般”，而后系统通过计算页面中单字与类别的互信息（Mutual Information）找出反映用户兴趣的关键词，构成用户模型。

从示例中抽取关键词在本质上与文本分类中的特征选择问题相似，都是通过训练样本得到一个较小的特征集合。不同的是，前者的目的是要找出能够表现示例集合的关键词，而后者的目的是为了减少分类器的计算量，提高分类器的精度。示例用户建模可以借鉴文本特征选择方法，如通过计算信息增益（Information Gain）、互信息（Mutual Information）、期望信息增益（Expected Information Gain）等来选择特征；反过来，示例用户建模的发展也对文本分类中的特征选择有借鉴意义。

3．自动用户建模

自动用户建模是指根据用户的浏览内容和浏览行为自动构建用户模型、建模过程无需用户主动提供信息的建模方法。在现有的个性化服务系统中，采用自动用户建模方法构建用户模型的系统主要有卡内基·梅隆大学的Personal WebWatcher、德国国家研究中心的ELFI、麻省理工学院的Letizia等。

Personal WebWatcher是卡内基·梅隆大学于1996年推出的个性化推荐系统。在用户浏览的过程中，Personal WebWatcher记录用户浏览的页面，观察用户对页面超链接的选择，推断用户浏览过的页面属于感兴趣类，反之属于不感兴趣类，分别作为训练例集的正例和负例。而后通过计算单字与类别的互信息选择反映用户模型的关键字，构成用户模型。

德国国家研究中心的ELFI采用了不同的方式，它仅采用用户浏览过的页面作为感兴趣页面进行用户建模。

麻省理工学院的Lieberman采用的训练例集获取方式，它通过用户的行为推测用户对页面的兴

趣。比如，如果用户保存某个页面，则推测用户对该页面感兴趣；如果用户经常访问某页面，则可推测用户对该页面感兴趣;如果用户点击页面中某个超链接而后又快速返回，则可推测用户对该超链接的链宿页面不感兴趣；假设用户浏览习惯是从左至右、从上至下，如果用户跳过某个超链接，则可推测用户对该超链接的链宿页面不感兴趣。用户感兴趣页面中的一些关键词构成用户模型。

这些自动用户建模方法实际上是改进了示例用户建模方法中的示例获取途径，将其转化为无需用户标注的自动示例获取方法。这种方法虽然实现简单，但容易引入噪声，不利于构建高质量的用户模型。

实际上，用户浏览的页面就可以反映用户的兴趣主题。如果用户经常浏览与“生物信息学”相关的页面，则容易推测“生物信息学”是用户感兴趣的主题；如果用户频繁浏览与“个性化服务”和“信息隐藏”相关的页面，则容易推测用户感兴趣的主题是“个性化服务”和“信息隐藏”。因此，如果能够对用户浏览的页面进行聚类，就能够得到用户感兴趣的主题，从而也就能够实现自动用户建模。

此外，对用户访问日志进行挖掘也是一条实现自动用户建模的途径。通过日志挖掘可以发现用户的访问摸式、购买习惯等用户特点，构建用户模型。与通常意义的日志挖掘不同，自动用户建模中的日志挖掘是针对单个用户的挖掘，而不是对群体用户访问模式的挖掘，挖掘出来的规则适用于特定的用户，而不是所有用户。

总的说来，自动用户建模由于无需用户主动提供信息，因而不会造成对用户的干扰，有利于提高个性化服务系统的易用性，促进个性化服务的发展。

个性化推荐

根据实现途径的不同，个性化推荐技术可以分为基于规则的推荐、基于内容的推荐、合作推荐和混合推荐。

1．基于规则的推荐

基于规则的推荐是指根据事先生成的规则向用户推荐信息的方式。比如事先生成的适合于某用户的购买规则是“如果购买了牛奶，就会同时购买面包”，那么当用户再次浏览牛奶相关的商品时，网站可以同时向用户推荐与面包相关的信息。基于规则的推荐方式较多地应用于电子商务网站，根据用户浏览和购买的日志生成规则，向用户推荐感兴趣的商品。

2．基于内容的推荐

基于内容的推荐是指通过比较资源与用户模型的相似程度向用户推荐信息的方式（图2）。

基于内容的推荐是目前个性化推荐的主流，典型系统包括斯坦福大学的LIR

A、麻省理工学院的Letizia、加州大学的Syskill&Webert和NewsDude等。

由于基于内容的推荐需要进行匹配计算，因而较多地应用于可计算的文本领域，如浏览页面的推荐、新闻组中的新闻推荐等。基于内容的推荐的缺点是不能为用户发现新的感兴趣的信息，只能推荐与用户已有兴趣相似的信息。

3．合作推荐

合作推荐又被称为社会推荐，是指通过相同或相近兴趣的用户对资源的评价向用户推荐信息的方式。合作推荐实质上是现实生活中经常采用的推荐方式，如两个兴趣相近的朋友相互推荐爱听的音乐、爱看的书等。

与基于内容的推荐不同，合作推荐并不比较资源与用户模型的相似性，而是通过比较用户之间的相似性来推荐信息。具有相近兴趣的用户被视为一个用户类。当用户对某信息感兴趣时，该信息就可以推荐给同类的其他用户。图3是合作推荐的示意图。

由于合作推荐不依赖于待推荐资源的内容，因而不仅适于可计算的文本领域，还可以广泛应用于其他领域，如音乐、电影、书等。合作推荐的优点是可以发现用户可能感兴趣的新信息，而不局限于用户已经感兴趣的信息。其缺点是如果一个信息没有被同类用户群中的任何用户浏览过，那它就不可能被推荐给该类中的其他用户。

4．混合推荐

混合推荐是指既通过比较资源与各个用户模型的相似度进行基于内容的推荐，又通过相近兴趣的用户群进行合作推荐的一种推荐方式。图4是混合推荐的示意图。

目前提供混

合推荐服务的系统还不是很多。斯坦福大学推出的基于内容的合作推荐系统Fab是其中最有影响力的系统。它根据用户对浏览页面的标注构建用户模型，并根据用户模型的相似性寻找具有相似兴趣的用户。Fab结合用户模型和邻居模型推荐用户感兴趣的页面。国内的清华大学也推出了一个混合推荐系统——Open Bookmark，它通过集中管理用户群的Bookmark来实现混合推荐。

由于混合推荐可以发挥两种推荐方法的优点，抵消两种推荐方法的缺点，因而具有更好的推荐性能。