基于协同过滤算法的课程推荐（采用皮尔逊相关系数) 。

最新推荐文章于 2024-05-19 18:40:03 发布

云梦之上

最新推荐文章于 2024-05-19 18:40:03 发布

阅读量1.5k

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/m0_52985451/article/details/120924960

版权

协同过滤课程推荐皮尔逊相关系数学习进度用户偏好

关键词由CSDN通过智能技术生成

python 专栏收录该内容

13 篇文章 2 订阅

订阅专栏

解决问题：
根据用户的选课情况，推荐相应的课程。
对应的文件如下：

相关文件：提取码：zxcv
复制这段内容后打开百度网盘手机App，操作更方便哦)

协同过滤算法的基本步骤：
1:收集用户偏好
2:找到相似的用户或物品
3:计算推荐

1:收集用户偏好
在这里，即用户对不同课程的选课情况，生成对应的0-1矩阵。

用到的study_information

# _*_ coding:utf-8 _*_
# 作者：yunmen
# 日期：2021年10月21日
import pandas as pd
data=pd.read_csv(r'C:\Users\yunmen\Desktop\study_information.csv',sep=',',encoding='gbk')
user_id=data['user_id'].drop_duplicates()#获取index
course_id = data['course_id'].drop_duplicates()  # 获取columns
da = pd.DataFrame(index=user_id, columns=course_id)  # 新定义一个数据框da
da[:]=0
for i in range(len(data)):
    row_i = data.iloc[i:i+1,:]
    user = (row_i['user_id'].tolist())[0]
    course = (row_i['course_id'].tolist())[0]
    da.at[user, course] = 1
da.to_csv(r"C:\Users\yunmen\Desktop\metrix.csv")

生成的metric0-1矩阵文件

2:找到相似的用户或物品
如何找到相似的事物？
我们通过，计算物体之间的距离，通过比较距离的大小进而判断事物间的相似度。
那么，如何量化这个距离？（也就是，要以怎样的计算方式作为标准来计算？）
这里面有，计算相似度的几种方法

这里采用：
皮尔逊相关系数（Pearson Correlation Coefficient）来表示两个课程间的相似程度。
（计算的话，dataframe直接内置计算函数corr()，不需要自己计算）
皮尔逊相关系数的计算
也就是我们线性回归时，相关系数的计算。
r∈（-1,1），越靠近1，相关性越强。

# _*_ coding:utf-8 _*_
# 作者：yunmen
# 日期：2021年10月22日
import pandas as pd
import csv
import numpy as np
data=pd.read_csv(r"C:\Users\yunmen\Desktop\metrix.csv")
data.drop('user_id',axis=1,inplace=True)
data= data.apply(lambda x:x.astype(float))
data.corr()
data.corr().to_csv(r"C:\Users\yunmen\Desktop\corr.csv")

生成的相关系数表

3:计算推荐

计算学习的进度。
以学习课程的进度，乘以100，然后进行累加，最后排序。
#利用excel，对study_information.csv进行拆分生成的study_time.xlsx文件

# 作者：yunmen
# 日期：2021年10月22日
import pandas as pd
import csv
import numpy as np
#利用excel进行拆分生成的study_time.xlsx文件
data=pd.read_excel(r"C:\Users\yunmen\Desktop\study_time.xlsx")
da=data.groupby('user_id').sum().sort_values(by='time',ascending=False)
da.to_csv(r"C:\Users\yunmen\Desktop\study_time_rank.csv")

生成的study_time_rank.csv

对学习进度最快的5人，进行课程的推荐
我们根据每个人已经选了课程,然后，依据之前计算的相关系数的矩阵，对每一门已选课程，找到它与未选课程之间的相关系数。然后，对所有的已选课程与未选课程的相关系数的累加，最终得到没门未选课程的一个系数的总和。

‘’’
对每一门已选课程，由学习的进度，区分计算权重的多少，采取的方法
对于选了的课：
学习进度为0，则对应的相关系数 乘以0.1
学习进度不为0，则对应的相关系数乘以（0.1+学习进度）。
即我们认为：
你选了这门课，但是没有进行学习，说明此课程不那么重要，所以在相关系数的累计所占的权重应该适当减小。
你选了这门课，进行了学习，那么学习进度越高，说明此课程更重要，所以在相关系数的累计所占的权重应该适当增加。
所以对于选择了的课程，我们根据其学习进度的情况，乘以此课程对应的其他课程的相关系数，作为最终的相关系数值
即是否选课，与学习时长，均占有一定的比重。
据此，分析出，相关度最高的3门课程。
‘’’

# _*_ coding:utf-8 _*_
# 作者：yunmen
# 日期：2021年10月23日
'''
采取的方法
对于选了的课，学习时长，为0，则对应的相关系数*0.1；学习时长不为0，则对应的相关系数*（0.1+学习进度）。
即是否选课，与学习时长占有一定的比重。
据此，分析出，相关度最高的3门课程。
'''
import pandas as pd
import csv
import numpy as np
course_metric=pd.read_csv(r"C:\Users\yunmen\Desktop\metrix.csv")
coor=pd.read_csv(r"C:\Users\yunmen\Desktop\corr.csv")
coor.fillna(0,inplace=True)
coor.set_index('Unnamed: 0',inplace=True)
co=pd.DataFrame(coor)
rank=pd.read_csv(r"C:\Users\yunmen\Desktop\study_time_rank.csv")
study_time=pd.read_excel(r"C:\Users\yunmen\Desktop\study_time.xlsx")
user=rank['user_id'].head(5).to_list()
recommend={}
for i in user:
    #筛选出单一用户的选课数据
    course_select = course_metric[course_metric['user_id'] == i]
    index = course_select.columns.to_list()
    rang = course_select.shape
    #已选课程
    has_selected=[]
    #未选课程
    nohas_selected =[]
    for m in range(1, rang[1]):
        if (course_select.iloc[:, m]).to_list()[0] == 1:
            has_selected.append(index[m])
        if (course_select.iloc[:, m]).to_list()[0] == 0:
            nohas_selected.append(index[m])
    li=[]
    #对每一个已选课程，对未选课程相关系数的提取，同时根据已选课程的学习时间，加以特定的权重。
    for j in has_selected:
        param=list(study_time[(study_time['user_id'] == i) & (study_time['course_id'] == j)]['time'])[0]*0.01
        if param==0:
            param=0.1
        else:
            param=param+0.1
        tem_list=list((co[j][co.index.isin(nohas_selected)]*param).sort_values(ascending=False).to_dict().items())[:]
        li.extend(tem_list)
        #li.extend(list(co[j][co.index.isin(nohas_selected)].sort_values(ascending=False).to_dict().items())[:])

    #对所有的未选课程的相关权重的值结果，进行统计，排序得出得分最高的前3个课程，进行推荐。
    cal={}
    for k in li:
        cal[k[0]]=cal.get(k[0],0)+k[1]
    static = sorted(cal.items(), key=lambda x: x[1], reverse=True)[:3]
    recommend[i]=static
print(recommend)

最终的推荐课程结果如下：
请添加图片描述
感谢观看，如有错误还望指正。

云梦之上

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
1
评论
基于协同过滤算法的课程推荐（采用皮尔逊相关系数) 。

解决问题：根据用户的选课情况，推荐相应的课程。对应的文件如下：相关文件：提取码：zxcv 协同过滤算法的基本步骤：1:收集用户偏好2:找到相似的用户或物品3:计算推荐1:收集用户偏好在这里，即用户对不同课程的选课情况，生成对应的0-1矩阵。# _*_ coding:utf-8 _*_# 作者：yunmen# 日期：2021年10月21日import pandas as pddata=pd.read_csv(r'C:\Users\yunmen\Desktop\study_inf
复制链接

扫一扫