Recommender system application developments: A survey
Collaborative filtering-based recommendation techniques
皮尔逊相关系数
两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
皮尔森相关系数反应了两个变量之间的线性相关程度,取值在[-1, 1]之间。正相关时,相关系数>0;负相关时,相关系数<0;如果相关系数等于0,表明它们之间不存在线性相关关系。
r u , i \displaystyle r_{u,i} ru,i表示用户u对项目i的评分, r v , i \displaystyle r_{v,i} rv,i表示用户v对项目i的评分, r u ‾ \displaystyle \overline{r_u} ru表示用户u的平均打分, r v ‾ \displaystyle \overline{r_v} rv表示用户v的平均打分
协方差
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。
但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
协方差Cov(X,Y)的度量单位是X的协方差乘以Y的协方差。
协方差为0的两个随机变量称为是不相关的。
标准差
总体标准差:
样本标准差:
标准误差:
缺陷
(1) 若特征评分等值对于结果影响过大,例如对同一电影评分一致,则结果受该电影评分影响很大;
(2) 若特征评分项唯一则无法计算,例如数据中只有一项电影评分则无法计算
CPC(约束皮尔逊相关系数)
r
z
\displaystyle r_z
rz表示u对I中所有项目评分的中位数,不同于皮尔逊相关系数中的平均数
余弦相似度
这里的分别代表向量A和B的各分量。
给出的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。
对于文本匹配,属性向量A和B通常是文档中的词频向量。余弦相似性,可以被看作是在比较过程中把文件长度正规化的方法。
在信息检索的情况下,由于一个词的频率(TF-IDF权)不能为负数,所以这两个文档的余弦相似性范围从0到1。并且,两个词的频率向量之间的角度不能大于90°。
余弦相似度着重于方向上的相似,对于数值的差距不够敏感,因此导入修正余弦相似度
修正余弦相似度
R i , a \displaystyle R_{i,a} Ri,a表示项目i被用户a的评分, R i , b \displaystyle R_{i,b} Ri,b表示项目i被用户b的评分, R i ‾ \displaystyle \overline{R_i} Ri表示项目i的平均得分
知乎上的一篇文章解决了我的困惑
修正余弦相似度和皮尔逊相关系数什么关系
Jaccard metric
越大越相似,分子为交集大小,分母为并集大小
Computational intelligence-based recommendation techniques
Top N
TOP(N)排序算法,在一组数据中,找到最小的N个数,并排序,最大的N个数与此类似。
cold start problem
- 用户冷启动
用户冷启动主要指的是新用户注册不存在历史行为数据,无法预测。 - 物品冷启动
物品冷启动主要指的是新物品缺乏评分数据,难以推荐。 - 系统冷启动
系统冷启动主要指的是新系统设计完成,没有用户,没有数据流通记录,难以进行个性化推荐
gray-sheep users’ problem
某些用户的倾向性和品味没有一致性,比较散。因此在协同过滤这种算法里,没办法和某个group有很高的相似/一致度,推荐会失效。
first-rater problem(个人感觉等同于cold start,或许是另一种描述)
又称新项目问题(New-item),从一定角度可以看成是稀疏问题的极端情况。因为传统的协同过滤推荐是基于邻居用户资料得到目标用户的推荐,在一个新的项目首次出现的时候,因为没有用户对它作过评价,因此单纯的协同过滤无法对其进行预测评分和推荐。而且,由于新项目出现早期,用户评价较少,推荐的准确性也比较差。相似的,推荐系统对于新用户的推荐效果也很差。冷开始问题的极端的案例是:当一个协同过滤推荐系统刚开始运行的时候,每个用户在每个项目上都面临冷开始问题。
assertion set、fuzzy set
断言集大概指的就是一对一映射,输入对应确定输出(个人简单理解)
模糊集
在常规系统中,如果一个系统在某刻的状态和输入一旦决定,下个时刻的状态和输出就可以确定。如果下一个状态不能确定,但是可以给出概率分布,就成为随机系统。如果概率分布都不能给出,但是可以给出所有可能状态的集合,而且所有可能状态的集合使用模糊集合来表示,就成为模糊系统。
隶属度函数
若对论域(研究的范围)U中的任一元素x,都有一个数A(x)∈[0,1]与之对应,则称A为U上的模糊集,A(x)称为x对A的隶属度。当x在U中变动时,A(x)就是一个函数,称为A的隶属函数。隶属度A(x)越接近于1,表示x属于A的程度越高,A(x)越接近于0表示x属于A的程度越低。
Social network-based recommendation techniques
social relations:trust(main)
Context awareness-based recommendation techniques
Context:
any information that can be used to characterize the situation of an entity. An entity could be a person, a place, or an object that is considered relevant to the interaction between a user and an application, including the user and the application them- selves.
three-step process:Contextual Pre-Filtering->Contextual Post-Filtering->Contextual Modeling
Contextual Pre-Filtering就是用上下文信息选择或者构建相关性最强的信息,Contextual Post-Filtering就是在进行推荐时忽略上下文信息,然后在评分排名推荐时,使用上下文信息进行微调排名,Contextual Modeling字面意思。
Group recommendation techniques(to be continued)
Example
E-government
ontology:本体属于人工智能领域中的内容理论(content theories),它研究特定领域知识的对象分类、对象属性和对象间的关系,它为领域知识的描述提供术语。
agent:(弱定义)Agent用以最一般的说明一个软硬件系统,她具有这样的特性:自治性,社会性,反映性,能动性;(强定义)Agent除了具备弱定义中的所有特性外,还应具备一些人类才具有的特性,如知识,信念,义务,意图等。
Semantic Web:"语义"网是由比现今成熟的网际搜索工具更加行之有效的、更加广泛意义的并且自动聚集和搜集信息的文档组成的。 其最基本的元素就是语义连结
- "标记"了语义信息的文档。这可以是机器可以理解的关于文档内容(例如文档的作者,标题,简介等)的描述, 或者是描述该网站所拥有的服务和资源.(注意:任何东西都是能被URI-统一资源定位符-所描述的,因此语义网能理解人物、地方、想法、类别等等)
- 通用元数据词汇表(本体论)及词汇间的影射使得文文件作者知道如何来标记文文件方可让机器识别他想提供的元数据.
- 利用元数据为语义网用户执行任务的自动软件代理(agent).
为自动软件代理提供特定信息的网络服务 (例如, 可信度服务可以让软件代理查询某个在线商店是否曾经有过不良纪录或者发送过垃圾邮件).
E-tourism
associative classi- fication algorithm(关联分类算法):
挖掘实体之间潜在的联系
知乎解惑:关联分析算法及实例(附数据和R代码)
其中还解释了置信度、支持度等相关概念
先例算法中强关联规则的置信度在原集中计算,再剔除低于最低置信度的规则
E-TVprogram
RMS(raw moment-based similarity )???
指的是这个?->rms函数(计算矩阵、数组和向量元素均方根
RMS