基于群体评论智能挖掘的多类别描述词汇协同推荐系统——《多视角认识十二个“一”》大作业方案设计_chen h, li z, hu w. an improved collaborative reco-CSDN博客

本文链接：https://blog.csdn.net/FShirley/article/details/106056909

[研究小组成员：数技1701陈露数技1702冯媛]

基于群体评论智能挖掘的多类别描述词汇协同推荐系统

一、研究问题
二、研究背景介绍
三、研究思路
四、预期呈现成果
参考文献

一、研究问题

在这里插入图片描述
针对同学们对‘十二个一’进行繁杂的测试而生成的实验数据，我们发现不同种类的刻画形容词具有一定概率指向同一个“一”，对其中有关选美评价、情感评价以及风格评价的数据，通过进行情感及主题分布特征提取、相似度计算、协同过滤构建用户评价矩阵、相似聚类呈现等方式，刻画相似评价群体的“画像”，达到对喜恶相似的同学群体分类，并对各个群体的喜好进行个性化推荐的目的。若有明显群体规模差异，还可以对‘大众’审美标准进行分析概括。

二、研究背景介绍

近年来，对大量用户评论的处理已经成为研究人员关注的热点问题之一。大量研究主要针对用户评论进行摘要、分类、多方面信息提取等处理，以解决信息爆炸的问题。

一些学者将传统协同过滤算法和其他模型相结合，以提高算法在数据稀疏情况下的推荐准确度。Chen等[1]从用户评分量级的角度出发,引入平衡因子，结合传统余弦相似度，提出了一种优化的基于用户的协同过滤算法。Parivas等[2]考虑到不同用户的评分数量和用户之间的影响程度不同，因此引入了非对称影响度，并加权考虑了用户的评分频率，提高了推荐的准确度。Liu等[3]将用户兴趣度权重函数与物品属性进行融合，在一定程度上降低了算法的平均绝对误差。Lee等[4]提出了偏好模型的概念，利用偏好模型修正用户-物品评分矩阵，将偏好模型和传统协同过滤算法相结合，有效提高了算法的准确率和召回率。上述算法虽然在一定程度上提高了推荐的准确度，但将用户不同时间段的评分信息同等对待，忽略了时间效应对用户兴趣的影响。而Gasmi等[5]提出了一种反映用户兴趣动态变化的协同过滤算法，考虑了用户兴趣随时间变化和用户周期性兴趣变化这两方面因素，定义了一个与时间有关的权重函数，改进了评分预测公式。Jin等[6]从时间上下文信息、用户兴趣衰退函数和物品相似度3个方面来考虑时间因素的影响，通过加权由非线性时间函数计算的用户兴趣和由最近时间段物品相似度计算的用户兴趣来计算用户对物品的偏好。

本次实验中的思想与协同过滤推荐相类似，采用基于自然语言处理的情感、主题分析方法，首先进行文本的基础预处理，提取数据的情感及主题分布特征，然后利用相似度计算模块，得到基于情感偏好及主题分布的相似度。结合二者，进行群体偏好分类及个性化推荐。

三、研究思路

（一）问题解决方案猜想

我们首先查看收集到的情感评价以及风格评价表格：
在这里插入图片描述
不难发现每个评论词都会作用于每一个“一”的评价，并且我们进行评价的方式是以一种评论词的程度去衡量“一”的特征，那么我们或许可以做出来这样的假设：

其中E，S分别代表着我们的情感、风格形容词特征空间，a和b分别是对应情感、风格特征空间中每维特征的贡献因子（影响因子），进行进一步展开理解即为：
在这里插入图片描述
从而可以获得对于特定“一”的总特征，以此为依据推出这个“一”作为结论，而我们的任务就是去探索这样的假设是否有成立的可能，而如若成立我们要能够通过处理得到的两类特征空间，反向得到影响因子矩阵，并用以此构建出的算法模型，进行特定人群的“一”字取向推荐。（比如输入某个情感描述词、某个风格描述词可以得到某人较为倾向的“一”）

（二）模型介绍

根据上一个部分进行的初始假设，我们希望学习CrowdReview系统模型[7]并在此基础上稍作改动以适应我们的研究，从而进行一系列的特征抽取与相似性度计算：
CrowdReview模型

（1）风格评价分布的获取

在这里插入图片描述
根据我们获得的某一个“一”的所有风格评价词汇，进行LDA计算，获取概率分布，同时LDA的结果即为特征向量。

（2）相似度计算

对于情感特征词汇，我们用词向量的欧几里得距离衡量他们的相似程度，每两个同学他们的情感词汇向量组之间的欧几里得距离为：
在这里插入图片描述
则他们的相似度可以这样计算：

而对于风格评价分布，我们利用LDA的特征向量作为概率，使用Jensen-Shannon散度作为标准衡量这一部分的相似度。

四、预期呈现成果

（一）程序模块

我们会利用python制作一个程序，在用户选择（输入）风格评价、情感评价词汇后，可以个性化推荐给用户其选择的较为倾向的“一”。整个程序暂定以上述的算法模型进行展开制作。

（二）可视化模块

我们暂定是绘制不同用户的情感词汇、风格词汇分布以及不同的“一”包含的描述词概率分布图（下面图样仅作为草图参考）：
在这里插入图片描述

（三）文字论述模块

我们最终会以实验报告或是论文形式，对上述探索过程、使用的算法模型、数学公式、最终结果及结论进行完整的论述。

参考文献

[1] CHEN H,LI Z K,HU W．An improved collaborative recommendation algorithm based on optimized user similarity[ J]． The Journal of Supercomputing,2016,72（7）；2565-2578.
[2] PARIVASH P, HWANG D, JUNG J E．Weighted similarity schemes for high scalability in user-based collaborative filtering [J]．Mobile Networks and Applications, 2015,20(4);497-507.
[3] LIUJ,WU W Q, LI X, et al． Collaborative filtering algorithm based on user interest and item properties[ J]． Computer Applications and Software,2017,34(5);33-37.
[4] LEEJ, LEED, LEEYC, et al． Improving the accuracy of top-N recommendation using a preference model[ J]． Information Sciences, 2016,348©;290-304.
[5] GASMI I, SERIDI-BOUCHELAGHEM H, HOCINE L, et al． Collaborative filtering recommendation based on dynamic changes of user interest[J]． Intelligent Decision Technologies, 2015,9(3);271-281.
[6] JINX, ZHENGQ, SUNL． An optimization of collaborative filtering personalized recommendation algorithm based on time context information[C]∥16th International Conference on Informatics and Semiotics in Organisations (ICISO). Singapore: Springer, 2015;146-155.
[7]景瑶,郭斌,王柱, 等.基于群体智能挖掘的个性化商品评论呈现方法[J].浙江大学学报（工学版）,2017,51(4):675-681. DOI:10.3785/j.issn.1008-973X.2017.04.006.