网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
随着人工智能技术的飞速发展,数据驱动的推荐系统成为了满足用户个性化需求的重要工具。特别是在漫画产业中,如何从海量数据中提取有价值的信息,推荐符合用户喜好的漫画作品,具有重要的实际应用价值。本文旨在探讨利用Spark技术进行大数据爬虫漫画推荐系统的研究,以期为漫画产业的可持续发展提供新的思路和方法。
在当今信息化社会,人们对信息的需求日益增长,而漫画作为一种深受大众喜爱的艺术形式,其产业发展迅速,涵盖了网络、出版、影视等多个领域。然而,面对如此庞大的漫画作品库,如何选择适合自己的作品成为了用户面临的难题。传统的推荐方法往往基于用户历史行为或社交网络数据进行推荐,但这些方法难以准确地反映用户的个性化需求。因此,研究基于大数据的漫画推荐系统,对于解决用户面临的信息过载问题具有重要意义。
在 Spark 大数据爬虫漫画推荐系统中,我们利用 Spark 强大的数据处理能力,从海量漫画数据中提取特征,建立推荐模型,为用户提供精准的漫画推荐服务。该系统的实现不仅可以提高漫画产品的质量和数量,还能满足用户的个性化需求,提高用户的满意度。此外,通过基于 Spark 的大数据爬虫技术,我们能够实时更新数据,确保推荐系统的有效性和实时性。
尽管目前市场上的漫画推荐系统多种多样,但仍然存在一些问题,如信息过载和个性化推荐不足等。这些问题的出现主要是由于缺乏有效的数据处理技术和准确的推荐算法。因此,本研究旨在通过 Spark 大数据爬虫技术,对于海量的漫画数据进行深度的分析和挖掘,从用户行为、作品属性、社交网络等多个维度提取特征,建立更加精准的推荐模型,以解决现有推荐系统存在的问题。
二.技术环境
开发语言:Python
python框架:django
软件版本:python3.7/python3.8
数据库:mysql 5.7或更高版本
数据库工具:Navicat11
爬虫框架:Spark
开发软件:PyCharm/vs code
前端框架:vue.js
三.功能设计
个人中心
用户信息管理:用户可以查看和编辑自己的个人信息,包括头像、昵称、性别等。
收藏管理:用户可以在个人中心查看自己收藏的漫画作品,以及对收藏的作品进行管理,如取消收藏、添加标签等。
评分管理:用户可以在个人中心查看自己对漫画作品的评分,以及修改或删除评分。
历史记录管理:用户可以在个人中心查看自己的浏览历史记录,以及删除历史记录。
漫画数据管理:
漫画数据管理模块是整个系统的基础,提供以下功能:
数据存储:系统可以存储大量的漫画数据,包括漫画的图片、简介、作者、出版社等信息。
数据查询:系统提供多种查询方式,使用户能够方便快捷地查找到自己感兴趣的漫画作品。
数据统计和分析:系统可以对漫画数据进行统计和分析,为推荐算法提供数据支持。
数据爬取:系统可以自动爬取各大漫画平台的漫画数据,包括漫画的图片、简介、评分等信息。
数据清洗:对于爬取到的原始数据进行清洗和过滤,包括去除重复数据、标准化处理等。
数据更新:系统可以更新漫画数据,保证数据的时效性和准确性。
系统管理:
系统管理模块是整个系统的后台管理部分,提供以下功能:
系统设置:管理员可以设置系统的各项参数,包括推荐算法的参数、系统的响应等。
漫画推荐
协同过滤算法
系统总体流程图如下所示:
四.部分效果展示
系统用户登录,在登录页面选择需要登录的角色,在正确输入用户名和密码后,进入操作系统进行操作;如图所示。
管理员点击漫画数据管理。进入漫画数据页面输入标题、作者、状态、类别和类型可以对漫画数据列表进行查询、删除或爬取数据,并根据需要对漫画数据详细信息进行详情、修改或删除操作,如图所示:
管理员点击爬取数据,点击右上角的看板,进入看板页面可以查看到系统简介、漫画类别、漫画状态、 漫画数据总数、作者分析、漫画订阅、漫画点击、漫画人气、漫画吐槽、漫画数据等实时的数据信息进行分析与可视化,如图所示:
六.部分功能代码
def news\_page(request):
'''
'''
if request.method in ["POST", "GET"]:
msg = {"code": normal_code, "msg": mes.normal_code, "data":{"currPage":1,"totalPage":1,"total":1,"pageSize":10,"list":[]}}
req_dict = request.session.get("req\_dict")
#获取全部列名
columns= news.getallcolumn( news, news)
#当前登录用户所在表
tablename = request.session.get("tablename")
#authColumn=list(\_\_authTables\_\_.keys())[0]
#authTable=\_\_authTables\_\_.get(authColumn)
# if authTable==tablename:
#params = request.session.get("params")
#req\_dict[authColumn]=params.get(authColumn)
'''\_\_authSeparate\_\_此属性为真,params添加userid,后台只查询个人数据'''
try:
__authSeparate__=news.__authSeparate__
except:
__authSeparate__=None
if __authSeparate__=="是":
tablename=request.session.get("tablename")
if tablename!="users" and 'userid' in columns:
try:
req_dict['userid']=request.session.get("params").get("id")
except:
pass
#当项目属性hasMessage为”是”,生成系统自动生成留言板的表messages,同时该表的表属性hasMessage也被设置为”是”,字段包括userid(用户id),username(用户名),content(留言内容),reply(回复)
#接口page需要区分权限,普通用户查看自己的留言和回复记录,管理员查看所有的留言和回复记录
try:
__hasMessage__=news.__hasMessage__
except:
__hasMessage__=None
if __hasMessage__=="是":
tablename=request.session.get("tablename")
if tablename!="users":
req_dict["userid"]=request.session.get("params").get("id")
# 判断当前表的表属性isAdmin,为真则是管理员表
# 当表属性isAdmin=”是”,刷出来的用户表也是管理员,即page和list可以查看所有人的考试记录(同时应用于其他表)
__isAdmin__ = None
allModels = apps.get_app_config('main').get_models()
for m in allModels:
if m.__tablename__==tablename:
try:
__isAdmin__ = m.__isAdmin__
except:
__isAdmin__ = None
break
# 当前表也是有管理员权限的表
if __isAdmin__ == "是" and 'news' != 'forum':
if req_dict.get("userid") and 'news' != 'chat':
del req_dict["userid"]
else:
#非管理员权限的表,判断当前表字段名是否有userid
if tablename!="users" and 'news'[:7]!='discuss'and "userid" in news.getallcolumn(news,news):
req_dict["userid"] = request.session.get("params").get("id")
#当列属性authTable有值(某个用户表)[该列的列名必须和该用户表的登陆字段名一致],则对应的表有个隐藏属性authTable为”是”,那么该用户查看该表信息时,只能查看自己的
try:
__authTables__=news.__authTables__
except:
__authTables__=None
if __authTables__!=None and __authTables__!={}:
try:
del req_dict['userid']
# tablename=request.session.get("tablename")
# if tablename=="users":
# del req\_dict['userid']
except:
pass
for authColumn,authTable in __authTables__.items():
if authTable==tablename:
params = request.session.get("params")
req_dict[authColumn]=params.get(authColumn)
username=params.get(authColumn)
break
q = Q()
msg['data']['list'], msg['data']['currPage'], msg['data']['totalPage'], msg['data']['total'], \
msg['data']['pageSize'] =news.page(news, news, req_dict, request, q)
return JsonResponse(msg)
def news\_autoSort(request):
'''
.智能推荐功能(表属性:[intelRecom(是/否)],新增clicktime[前端不显示该字段]字段(调用info/detail接口的时候更新),按clicktime排序查询)
主要信息列表(如商品列表,新闻列表)中使用,显示最近点击的或最新添加的5条记录就行
'''
if request.method in ["POST", "GET"]:
msg = {"code": normal_code, "msg": mes.normal_code, "data":{"currPage":1,"totalPage":1,"total":1,"pageSize":10,"list":[]}}
req_dict = request.session.get("req\_dict")
if "clicknum" in news.getallcolumn(news,news):
req_dict['sort']='clicknum'
elif "browseduration" in news.getallcolumn(news,news):
req_dict['sort']='browseduration'
else:
req_dict['sort']='clicktime'
req_dict['order']='desc'
msg['data']['list'], msg['data']['currPage'], msg['data']['totalPage'], msg['data']['total'], \
msg['data']['pageSize'] = news.page(news,news, req_dict)
return JsonResponse(msg)
def news\_list(request):
'''
前台分页
'''
if request.method in ["POST", "GET"]:
msg = {"code": normal_code, "msg": mes.normal_code, "data":{"currPage":1,"totalPage":1,"total":1,"pageSize":10,"list":[]}}
req_dict = request.session.get("req\_dict")
if req_dict.__contains__('vipread'):
del req_dict['vipread']
#获取全部列名
columns= news.getallcolumn( news, news)
#表属性[foreEndList]前台list:和后台默认的list列表页相似,只是摆在前台,否:指没有此页,是:表示有此页(不需要登陆即可查看),前要登:表示有此页且需要登陆后才能查看
try:
__foreEndList__=news.__foreEndList__
except:
__foreEndList__=None
if __foreEndList__=="前要登":
tablename=request.session.get("tablename")
if tablename!="users" and 'userid' in columns:
try:
req_dict['userid']=request.session.get("params").get("id")
except:
pass
#forrEndListAuth
try:
__foreEndListAuth__=news.__foreEndListAuth__
except:
__foreEndListAuth__=None
#authSeparate
try:
__authSeparate__=news.__authSeparate__
except:
__authSeparate__=None
if __foreEndListAuth__ =="是" and __authSeparate__=="是":
tablename=request.session.get("tablename")
if tablename!="users":
req_dict['userid']=request.session.get("params",{"id":0}).get("id")
tablename = request.session.get("tablename")
if tablename == "users" and req_dict.get("userid") != None:#判断是否存在userid列名
del req_dict["userid"]
else:
__isAdmin__ = None
allModels = apps.get_app_config('main').get_models()
for m in allModels:
if m.__tablename__==tablename:
try:
__isAdmin__ = m.__isAdmin__
except:
__isAdmin__ = None
break
if __isAdmin__ == "是":
if req_dict.get("userid"):
# del req\_dict["userid"]
pass
else:
#非管理员权限的表,判断当前表字段名是否有userid
if "userid" in columns:
try:
pass
except:
pass
#当列属性authTable有值(某个用户表)[该列的列名必须和该用户表的登陆字段名一致],则对应的表有个隐藏属性authTable为”是”,那么该用户查看该表信息时,只能查看自己的
try:
__authTables__=news.__authTables__
except:
__authTables__=None
if __authTables__!=None and __authTables__!={} and __foreEndListAuth__=="是":
try:
del req_dict['userid']
except:
pass
for authColumn,authTable in __authTables__.items():
if authTable==tablename:
![img](https://img-blog.csdnimg.cn/img_convert/22f2a4d540089fb2afdd33c1df072114.png)
![img](https://img-blog.csdnimg.cn/img_convert/d4f7a03c4698f1c4ee7179ce0b0c9205.png)
![img](https://img-blog.csdnimg.cn/img_convert/2fdaee76c4d93aaacb023567ea10c7ea.png)
**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**
**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**
-1715737274359)]
[外链图片转存中...(img-rleayM9z-1715737274359)]
[外链图片转存中...(img-YMbcK0dl-1715737274359)]
**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**
**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**