毕业设计-基于协同过滤算法的高校图书书目推荐系统

最新推荐文章于 2025-02-10 15:59:27 发布

HaiLang_IT

最新推荐文章于 2025-02-10 15:59:27 发布

阅读量2.9k

点赞数 3

分类专栏：深度学习毕设选题教程 python毕设选题文章标签：课程设计神经网络算法最小二乘法 k-means

本文链接：https://blog.csdn.net/qq_37340229/article/details/129568489

版权

深度学习同时被 3 个专栏收录

149 篇文章

订阅专栏

毕设选题教程

123 篇文章

订阅专栏

python毕设选题

34 篇文章

订阅专栏

前言

📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

选题指导: https://blog.csdn.net/qq_37340229/article/details/128243277

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯毕业设计-基于协同过滤算法的高校图书书目推荐系统

课题背景和意义

互联网时代，图书无论是在种类上还是在数量上都呈现激增状态，高校学生在日常的学习过程中离不开图书馆的书本借阅，而传统的借阅形式很难在数百万册的图书中快速准确的找到目标种类，查找类似题材时更是需要耗费大量时间成本。传统的检索形式时间成本高、检索效率低，已经完全落后于时代。相较于传统形式，智能化书目推荐系统可以通过学生偏好、兴趣度等数据进行统计分析，从而有针对性的为读者推荐相应书目，既节省时间又更为准确。为了实现高校图书馆借阅系统中的个性化推荐，以图书的借阅持续时长、借阅总次数、续借次数作为兴趣度分量，利用协同过滤算法以及ｋ近邻搜索算法解决借阅关系矩阵稀疏问题，构建基于兴趣度与类型因子的协同过滤推荐模型并设计了五层体系的书目推荐系统，实现了两大分区１２个模块的借阅与推荐类功能。经过１０００名学生的实际借阅数据验证，结果表明当近邻个数取６０以上且推荐书目为２０时推荐效果最佳，为高校图书管理提供了智能化推荐手段。

实现技术思路

一、核心算法简介

协同过滤算法

协同过滤算法主要是假设具有同样或类似兴趣点的用户在需求上也存在相似性，通过分析用户的历史行为过滤筛选有用信息，利用近邻技术获取不同用户或不同项目之间的相似性，采用权重加权平均分值预测目标偏好，从而进行智能推荐。

ｋ近邻搜索算法

近邻检索法是利用数据的相似性查找目标数据，当目标数据为距离最近的前ｋ个时则称为ｋ近邻搜索法。相似性通常采用空间上的数据距离来进行表征，距离越近，则认为相似性越高。常用的包括欧氏距离、皮尔森积矩系数以及余弦相似性等。欧氏距离最直观，但在受主观影响大的评分时效果不佳；皮尔森积矩系数主要是反映线性变量的相关性；余弦相似度通常用向量之间的夹角来反映相似程度。

二、图书兴趣度与图书类型因子分析

学生对图书的兴趣度分析

高校图书馆中的图书量远远多于学生量，针对这种用户比项目少的情况，基于用户的协同过滤算法更为适合。由于缺少用户评分的渠道，因此引入借阅持续时长、借阅总次数以及续借次数作为影响用户兴趣的因子。

（１）借阅持续时长：持续时间越长，兴趣越大。设Ｐ代表一次成功借阅的市场百分比，可通过

计算，其中Ｔｒ（ｕ，ｉ）为用户ｕ归还图书ｉ的时间，Ｔｂ（ｕ，ｉ）为用户ｕ借阅图书ｉ的时间，Ｔｃ为超期阈值。超期的情况包括忘记归还或特殊情况无法归还，这部分数据为噪声数据，可删除不做处理。将百分比映射为兴趣度。

（２）借阅总次数：被借次数越多，兴趣越大。设借阅总次数为ｔ，最大值为ｍａｘ，以最大值为基准划分为５个级别：

（３）续借次数：用户感兴趣才会续借，否则会及时归还。将续借次数进行映射：

最终用户对某一图书的兴趣度采用３个分量的平均值，即：

基于类型因子计算权重

协同过滤法项目之间的权值是算法的核心，本研究采用中国图书馆分类号作为权值进行计算。根据中图分类号，每本书都有唯一编号，从左到右通过数字、字母代表分类，其树形结构如图所示。

根据分类树中的位置，两本书之间的类型因子可以通过式计算：

其中，ｈｅｉｇｈｔ为分类树高度，ｐａｒｅｎｔ（ｉ，ｊ）为图书ｉ与ｊ的父节点所处高度。

三、协同过滤推荐模型

模型建立流程

由于高校图书管的图书数量庞大，导致学生借阅图书的关系矩阵特别稀疏，因此采用嵌入基于项目的协同过滤法与基于用户的协同过滤法混合的形式，首先搜索近邻用户，然后通过图书兴趣度以及类型因子构建推荐模型，整体流程如图所示。

读者特征提取

设ｎ代表图书类型，ｕ（ｔ）代表借阅频次，则特征向量表示为Ｕ＝（ｕ（１），ｕ（２），ｕ（３），…，ｕ（ｎ）），将Ｕ作为读者特征进行ｋ近邻检索，ｖ代表近邻用户，采用余弦定理计算用户之间的相似度，将与目标距离最近的ｋ个近邻记作读者集Ｕｋ：

构建协同过滤推荐模型

由于借阅关系矩阵稀疏，在计算用户相似度时嵌入基于项目的协同过滤，采用这种混合协同过滤算法得出的评分弥补矩阵空缺。设Ｉｕ代表目标用户ｕ的待推荐项目集，Ｉｖ代表近邻用户ｖ参与评分的项目集，对于Ｉｕ～Ｉｖ这部分项目，利用已参与评分的项目的加权平均得到的分数计算未评分的项目得分，从而计算得出目标用户对这部分项目的评分。

其中，Ｂ（ｖ）为近邻用户ｖ借阅的图书集。兴趣矩阵数据补充完整之后利用协同过滤算法构建推荐模型ｌｉｋｅ（ｕ，ｉ）＝

其中ｓｉｍ（ｕ，ｖ）为用户ｕ与ｖ之间的余弦相似度。由此按照兴趣度大小得到ｔｏｐＮ列表，作为推荐书目。

四、高效图书馆书目推荐系统设计

学生需求分析

高校图书馆不仅是学生借阅图书的场地，也是各类读书小组、学术探讨的重要活动场地。因此书目推荐系统的不仅要包括图书检索、自助借阅、超时扣费等基础功能，还要提供图书推荐、新书推荐、共同兴趣好友推荐等辅助功能。利用原有的借阅数据库获取协同过滤推荐模型所需源数据，采用Ｈａｄｏｏｐ分布式框架增加运行效率，作为附加推荐功能的借阅系统为学生提供图书。

系统整体结构

由于推荐算法涉及输入借阅记录，需要从借阅数据库提取数据，因此采用与传统业务分离的模式设计系统整体结构，主要包括数据层、预处理层、计算层、业务层以及展示层，整体结构如图所示。

其中，数据层主要负责存储借阅记录，学生信息、图书信息等基础数据；预处理层主要是剔除噪声数据，补充缺失数据，将数据进行规范化格式转换以利于计算；计算层作为推荐系统的核心模块，利用ＭａｐＲｅｄｕｃｅ分布式框架并行运行关键算法，将运算结果存储在数据层；业务层主要与数据层进行交互，封装算法逻辑，分别处理借阅与推荐业务；展示层主要是通过图形化界面为学生提供推荐书目。

功能模块设计

根据学生的需求以及系统整体架构，将高校图书馆书目推荐系统划分为前台及后台两大核心功能，整体功能模块组成如图所示。

其中：

（１）后台管理：主要包括登录管理、图书管理、学生管理、公告管理、超期扣费、参数设置６个模块。登录管理模块主要验证用户的账号及密码，确保权限；图书管理模块主要记录图书分类号、作者等基本信息；学生管理模块负责学生帐号及基本信息管理；公告管理模块实现管理员发布各项规定、时间表等信息；超期扣费模块实现自主扣费；参数设置模块由管理员进行参数管理。

（２）前台展示：主要包括个性化图书推荐、相同兴趣好友推荐、新书推荐、借阅排行、系统公告、图书搜索６个模块。个性化图书推荐展示根据协同过滤模型推荐的ｔｏｐＮ书目列表；新书推荐主要展示近期新增图书；借阅排行展示按照借阅次数排序的列表；系统公告展示相关公告信息；图书搜索模块提供按照书名、作者、出版社等查询条件的检索查询功能。

核心数据库表

高校图书馆书目推荐系统中的推荐模型需要利用学生的借阅信息计算借阅持续时长、借阅总次数以及续借次数，权值计算时涉及使用中图分类号作为类型因子，因此系统的核心数据库表需包括借阅记录表、图书信息表、兴趣度记录表、推荐书目表等。

（１）借阅记录表：主要包括学生姓名、学号、性别、学院、操作时间、图书编号、图书名称、作者、ｉｓｂｎ编号、操作类型等字段。其中操作类型包括借阅、归还、续借三类。按年份进行分区存储。

（２）图书信息表：主要包括图书编号、中图编号类型、图书大类、类型名称、图书名称、图书类型、作者、出版社、出版年份、入馆日期、位置、ｉｓｂｎ编号等字段。其中中图分类号采用“／”分隔，之前编号代表最小区分类型。

（３）推荐好友表：主要包括学号、图书编号、图书名称、兴趣度、好友学号等字段。

（４）推荐书目表：主要包括学号、图书编号、图书名称、兴趣度、作者、出版社等字段。

五、系统功能实例验证

实例验证过程

为验证系统功能，选用国内某大学图书馆的１０００名学生的实例借阅数据带入设计的推荐模型进行实验测试，设置服务器配置为８Ｇ内存，５００Ｇ硬盘，在Ｅｃｌｉｐｓｅ环境下利用Ｊａｖａ语言编程，利用１０００名学生的实际借阅记录５４ｗ条作为实验数据，其中包括１８个专业、２２类图书。统计不同类型图书的借阅次数、时长、续借次数，根据图书兴趣度模型计算，最终借阅频次组成２２维的图书兴趣数据表如表１所示（随机截取了５位学生的记录）。

对得到的新数据表采用ｋ近邻搜索算法进行同类兴趣同学的搜索，计算不同学生的近邻用户的余弦相似度，以学生Ｊ０９２４０２１５为例，当ｋ＝５时，计算得到近邻用户相似度如表所示。

推荐效果检验标准

由于借阅矩阵稀疏，采用推荐命中率评判推荐效果较难，因此本研究采用评价绝对误差ＭＡＥ衡量协同过滤推荐算法的实际效果，计算公式为

其中，ｒｅｃ（ｕ）为推荐书目集，ｒgｕｉ为推荐书目评分，ｒｕｉ为测试书目评分。

推荐书目效果

为了验证模型推荐书目的实际效果，计算不同近邻个数ｋ与不同推荐个数Ｎ的推荐绝对误差ＭＡＥ进行衡量，分别取ｋ为１０～８０，Ｎ为１０、１５、２０，将１０００名学生的借阅记录代入系统模型，计算ＭＡＥ值，得到结果如图所示。

由上图可知ｋ值过小则推荐效率降低，ｋ值过大则算法运行负担加重，当ｋ值取１０～５０之间逐步增加时，推荐效果有显著增强，当ｋ值达到６０以后，推荐效果不再显著提升。而且，ｋ值较少时，Ｎ的数量越小推荐效果越好。

六、总结

基于图书兴趣度排序构建基于类型因子的协同过滤推荐模型，经过实际借阅数据证明推荐效果随着近邻个数与推荐数量的变化有所不同，为高校图书馆的书目推荐提供了有实际意义的信息化方案。但目前模型采用的兴趣度分量还比较少，后续如可以加入图书标签、文本摘要等信息则系统功能会更加完善，另外在图书相似度算法方面还需进一步深入研究。