动手构建一个推荐系统(Recommendation System)

最新推荐文章于 2024-06-17 10:26:21 发布

cedricporter

最新推荐文章于 2024-06-17 10:26:21 发布

阅读量3.3k

点赞数 3

分类专栏： System 文章标签： system 算法 distance iterator 生活 delete

System 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

写在前面：本文通过构建一个电影推荐系统，深入浅出的介绍推荐系统相关的概念、算法，让读者朋友能够在对推荐系统有比较全面的认识的基础之上，能够轻松地构建出自己的推荐系统。

1. 什么是推荐系统（Recommendation System)

推荐系统是指根据一个群体的偏好，来为群体中的成员提供推荐的系统。现实生活中这样的例子很多，比如豆瓣(Douban.com)读书中的“豆瓣猜”功能，它根据你看过的一些书和相关评价，与整个豆瓣社区其它会员看过的书与评价经过一系列的计算，就能给你推荐一些你没有读过的，但有可能感兴趣的书（如下图所示）:
这是我读过的或者正在读的书：

这是豆瓣给我推荐的书：

通过上面的例子，相信大家对推荐系统都有了一个初步的认识。其实生活中还有许许多多的这样的例子，像在线购物中的商品推荐、在线视频播放网站的视频推荐等。

2. 推荐系统相关理论

（1）推荐系统通常可以分为两类：一类是基于人的推荐系统，它利用人与人之间的相似度来进行推荐；一类是基于物品的推荐，它利用物品之间的相似度来进行推荐。通俗地讲，基于人的推荐，是通过分析人与人喜欢的物品，计算出人与人之间的相似度，然后做推荐；而基于物品的推荐，是通过分析某人喜欢的物品与其它物品的相似度，然后来为其做推荐。
（2）推荐系统中比较关键的算法就是相似度的计算，有人与人之间的相似度计算，也有物品与物品之间的相似度计算。相似度计算函数要满足如下特点：拥有同样的函数签名，以一个浮点数做为返回值，其数值越大代表相似度越大。下面介绍几个算法：
a. 欧几里德距离（Euclidean Distance），我们知道两个人的喜好越相似，他们的欧几里德距离值越小，所以需要将欧几里德距离转化一下，这里介绍一个简单的转化：1/(1 + dist)，这样就能保证越相似取值越大，而且取值范围在（0, 1]
b. 皮求逊相关系数（Pearson Correlation Coefficient）, 取值范围[-1, 1], 越相似值越大，满足条件
c. Tanimoto系统（Tanimoto Coefficient），最值范围[0, 1], 越相似值越大，满足条件
（3）在推荐系统里，需要注意：
a. 没有对某物品进行评价的人不能对该物品的推荐打分产生影响
b. 不能因为某人的偏执喜好（打很高或者很低的分）对推荐打分产生明显的影响
为了避免上面的问题，通常采用加权平均的方法来计算某物品的推荐打分（详见第三部分算法实现）

3. 动手构建一个推荐系统

本部分通过构建一个真实的电影推荐系统，来介绍构建一个推荐的基本步骤与方法。

（1）数据集

本系统采用的数据是来自http://www.grouplens.org/node/73的数据，本次实验采用的是如下图所示的第三份数据，总共有6040个用户和3952部电影，以及1000209条相关评价。

（2）核心：推荐函数

typedef double (*ScoreFunc)(const double *, const double *, size_t);
 
void GetRecommendation(
	const double ** allCritics,    //[in]  所有人的打分表
	size_t personNum,              //[in]  所有人的个数
	size_t size,                   //[in]  打分表大小
	size_t myIndex,                //[in]  我在打分表中下标
	ScoreFunc scorer,              //[in]  打分函数
	size_t recNum,                 //[out] 被推荐项个数
	int * recItems,                //[out] 被推荐项列表
	double * recScores             //[out] 被推荐项得分
	)
 {
	double * allRels = new double[personNum];
	::memset(allRels, 0, sizeof(double)*personNum);
	///计算所有的相关度
	for (size_t idx = 0; idx < personNum; ++ idx)
	{
		if (idx == myIndex)
		{
			continue; //it's me, just continue
		}
		allRels[idx] = scorer(allCritics[myIndex], allCritics[idx], size);
	}
 
	double * rels = new double[personNum];
	double * critics = new double[personNum];
	std::multimap mapScores;
	for (size_t itemIdx = 0; itemIdx < size; ++ itemIdx)
	{
		::memset(rels, 0, sizeof(double)*personNum);
		::memset(critics, 0, sizeof(double)*personNum);
		///获取有效的相关度和对应的评分
		for (size_t personIdx = 0; personIdx < personNum; ++ personIdx)
		{
			if (allCritics[personIdx][itemIdx] <= 0)//invalid score
			{
				rels[personIdx] = 0;
				critics[personIdx] = 0;
			}
			else
			{
				rels[personIdx] = allRels[personIdx];
				critics[personIdx] = allCritics[personIdx][itemIdx];
			}
		}
 
		///计算加权打分
		double score = GetWeightedMead(critics, critics + personNum, rels, rels + personNum);
		mapScores.insert(std::make_pair(score, itemIdx));
	}
 
	///获取最终的推荐列表和对应的打分
	std::multimap::reverse_iterator oIt = mapScores.rbegin();
	for (size_t count = 0; count < recNum; ++ count) 	{ 		recItems[count] = oIt->second;
		recScores[count] = oIt->first;
		++ oIt;
	}
 
	delete [] critics;
	delete [] rels;
	delete [] allRels;
}

上面的函数，输入所有人的评分表，以及需要提供推荐的人的相关信息，输出提供的推荐列表，以及相应的打分。这里需要说明的一点是打分函数scorer, 它是一个ScoreFunc类型的函数指针，在实际调用的时候，可以通过传入不同的打分函数，获得在该打分函数下的推荐列表。需要注意打分函数的签名在这里必须与ScoreFunc的定义一致。下面是我定义的打分函数：

double GetEuclideanScore(double dist)
{
	return (1 / (1 + dist));
}
 
double GetPearsonScore(double coef)
{
	return coef;
}
 
double GetTanimotoScore(double coef)
{
	return coef;
}
 
double GetEuclideanScore(const double * myCritics, const double * hisCritics, size_t size)
{
	double dist = GetEuclideanDistance(myCritics, myCritics + size,
		hisCritics, hisCritics + size);
 
	return GetEuclideanScore(dist);
}
 
double GetPearsonScore(const double * myCritics, const double * hisCritics, size_t size)
{
	double coef = GetPearsonCorrelationCoefficient(myCritics, myCritics + size,
		hisCritics, hisCritics + size);
 
	return GetPearsonScore(coef);
}
 
double GetTanimotoScore(const double * myCritics, const double * hisCritics, size_t size)
{
	double coef = GetTanimotoCoefficient(myCritics, myCritics + size,
		hisCritics, hisCritics + size);
 
	return GetTanimotoScore(coef);
}

上面的六个函数，前面三个是对结果进行规范化的函数，使结果满足越相关越大。后面三个函数是真正的评价打分函数。在上面的实现中用到了GetEuclideanDistance， GetPearsonCorrelationCoefficient， GetTanimotoCoefficient， GetWeightedMead这四个函数，它们分别是计算欧几里德距离，Pearson相关系数，Tanimoto系数和加权平均值的函数，在这里我就不给出具体的实现了。

（3）实验结果

我们用三种不同的打分函数，为第1000个用户，推荐20部电影，来对比一下推荐的结果：
a. Euclidean结果：

b. Pearson结果：

c. Tanimoto结果：

从上面的结果中，可以得出如下结果：
a. 采用Euclidean打分推荐和采用Pearson打分推荐的结果中，有16个是相同的
b. 采用Pearson打分推荐和采用Tanimoto打分推荐的结果中，有15个是相同的
c. 采用Tanimoto打分推荐和采用Euclidean打分推荐的结果中，有16个是相同的
从上面的数据可以看出，虽说采用不同的打分函数进行推荐的结果存在一定的差异，但是整体上是一致的，不同的结果的相互覆盖率都超过了75%, 这说明我们的打分函数都还是比较有效的。

原创文章,转载请注明出处：小武哥的博客
本文固定链接： http://www.wuzesheng.com/?p=1277

cedricporter

关注

3
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
动手构建一个推荐系统(Recommendation System)

写在前面：本文通过构建一个电影推荐系统，深入浅出的介绍推荐系统相关的概念、算法，让读者朋友能够在对推荐系统有比较全面的认识的基础之上，能够轻松地构建出自己的推荐系统。1. 什么是推荐系统（Recommendation System)推荐系统是指根据一个群体的偏好，来为群体中的成员提供推荐的系统。现实生活中这样的例子很多，比如豆瓣(Douban.com)读书中的“豆瓣猜”功能，它根据你看过的
复制链接

扫一扫

专栏目录