基于在线教学平台的数据挖掘与学习行为分析

项目链接Data-Mining-and-Learning-Behavior-Analysis-Based-on-Online-Teaching-Platforms
数据集链接: 基于在线教学平台的数据挖掘与学习行为分析【超星集团】数据集

前言

近年来,随着在线教育和MOOC(Massive Open Online Courses,大规模开放式在线课程)教育的兴起,积累了海量教学行为数据与知识资源。由于教育资源的繁杂,用户难以在众多的教育资源中找到符合自己需要的学习资源,在接受信息的过程中容易形成“学习迷航”和“认知过载”。同时,教学过程发生在网络环境中,和线下课堂教学不同,教师无法全程了解和监督学生的学习情况。而对教育大数据的分析挖掘有助于破解上述难题,为智慧教育发展注入新的动力。对于学生的用户画像问题,利用大数据技术对学生的学习行为分析有助于获得学生的学习能力、学习兴趣与意图等个性化特征,使得在线教育平台为学生提供个性化学习服务提供了可能。对学生学习能力进行建模,可以对学生的学习能力有一个客观的评价,使得学生对自己的能力有一定的认识,老师可以根据学生的学习能力制定相应的学习计划。
对学生的学习兴趣、学习意图与学习风格进行建模,一方面可以为学生推荐与其兴趣与意图相匹配的学习资源与学习伙伴,为课程提供者以及平台提供学生所需求课程的资源,可以方便平台及课程提供者提前储备学生需要的学习资源。另一方面也可以探索学生的学习风格和行为模式的倾向性,预测学业成绩,并为不同类型的学生量身定制学习服务,从而为教学策略的制定,及时实施学业预警等干预措施提供科学依据。
关于学习行为分析的研究国外早于国内,科研成果也更丰富。国外学者关于在线学习行为分析的研究内容多为分析学生的学习行为,识别潜在的学习模式和风格,对学习行为进行分析、预测、评估以及适当的干预来达到提高学生在线学习效果的目的。
本项目基于在线教学平台提取的样本数据进行关联分析和数据挖掘,建立学生学习行为分析模型,从信息感知维度、信息投入维度、信息加工维度、学习态度维度、信息接收维度、社会化交互、本课程学习能力、新课程学习能力八个维度分析用户行为,并根据学生对课程的评价进行词云和情感分析,得到学生对于课程的反馈,便于教师及时了解学生的学习习惯和特点,从而为教师提供优化教学方法的参考;同时可以帮助平台了解用户的学习偏好、兴趣和需求,进而通过基于知识图谱的协同过滤推荐向用户推荐个性化的学习资源。


文章目录


一、创意描述

(一)学科交叉

1.计算机科学与技术

计算机科学与技术是本课题主要运用到的学科之一。本项目以在线教育平台为基础,对平台用户的学习数据利用数据挖掘和数据分析等技术进行用户画像的构建及不同维度分析,为用户的学习效果进行反馈。

2.统计学

在本课题的调研中,我们需要查阅大量文献资料并收集大量相关数据并从中提取、分析出有效结果。这要求我们要具备一定的统计学知识,要掌握资料查询、文献检索及现代信息技术所要求的其他信息获取基本方法。同时,在对获取的所有数据进行最终的归纳、整理、分析时,我们也需要将统计学理论运用到实践中,对在线教育数据分析在实践中出现的问题进行整理,并根据现象与成因提出方案,同时预测暂未发现但可能发生的问题,尽可能地去规避。

3.教育学

教育学是一门研究人类的教育活动及其规律的社会科学。本次课题主要研究重点为在线教育的数据分析,与教育学有高度正相关性,我国教育现今强调“以人为本”,随着互联网普及以及随着“双减”政策的推出,无论是社会人士还是学生都可以随时随地利用互联网进行学习,在线教育理应受到重视与扶植。因此,本次研究必用到教育学知识。

4.管理学

管理学的目的是研究在现有的条件下,如何通过合理的组织和配置人、财、物等因素,整合组织的各项资源,提高生产力的水平,实现组织既定目标的活动过程。本小组在该项目执行过程中细致分工,运用管理学,对工作进行分割管理,对人员进行分配管理,保证每个成员的优势最大化,使小组效率最大化,达到预期的理想效果。

(二)研究方法多样化

1.数理实证研究

有目的的对在线学习平台的数据进行统计、清洗、转换和建模,从而对学生学习行为进行分析和分类。数理实证研究适合研究复杂、多变量的问题,在本研究中运用数理计量方法量化指标,有利于把握复杂现象以及不同变量之间的联系。

2.定量分析方法

在不同的维度中确定不同的指标定量的将学生行为划分到不同类别。通过定量的方法来探究在线学习行为数据的数量规律性,能使我们对研究对象的认识更加精确化和客观化。

3.描述性研究法

以大学生群体在线学习平台数据为对象进行分析和处理,开展网络资源语义关联分析、学生知识结构分析、MOOC学习行为分析构建用户画像与课程资源推荐等研究工作,通过分析其表现出的大数据特征,并与数据挖掘领域的机器学习算法相结合,构建在线学习行为分析模型的总体架构,并通过机器学习的多种模型判断构建模型的预测准确度,以求给学生的学习能力一个客观的评价。

(三)模型研究的创新

1.统计分析模型

根据所收集到的学生数据表信息与特征字段,在维度分析下参考了不同类型的统计分析模型,如:线性回归模型、3Sigma模型、K均值聚类模型、朴素贝叶斯概率模型等模型,以处理与挖掘不同维度下学生关于特征字段的具体表现。

2.基于LTP模型语义解析

根据爬取的课程简介信息,分词:LTP模型采用基于词典和规则的分词方法,通过查找词典和应用一定的规则,将句子切割成词块。使用基于“平均感知机”(Average Perceptron)算法的词性标注器,将分词后的句子中每个词语赋予一个词性,并基于条件随机场(Conditional Random Field, CRF)模型,通过对已经标注好的命名实体语料进行学习和总结,建立命名实体识别模型,从而提取文本中的命名实体信息。同时基于转移的依存句法分析方法,根据句子的依存关系进行分析,将句子中的每个词语看作一个节点,将它们之间的依存关系看作边,建立依存句法分析树,最后对句子中每个成分的语义角色进行识别。

3.TextRank算法的关键词提取

基于TextRank图算法的关键词提取算法是一种用于文本的无监督式关键词提取算法,其核心思想是基于PageRank算法,将文本中的单词或短语作为节点,通过计算它们之间的相似度构成权重矩阵,进而构建加权图,在图上运行TextRank算法获得节点的重要性排名,最后根据排名得出文本的关键词。相比传统的TF-IDF算法,TextRank在无需构造数据集训练的前提下,能够更好地利用文本元素之间的关系,具有更好的效果。

4.基于知识图谱的协同过滤推荐

小组根据学生的选课情况,将知识图谱和传统的协同过滤算法融合,抽取学生和课程作为实体,将实体嵌入学习,采用图嵌入算法将每个节点表示为一个低维度向量,以捕捉其在知识图谱中的语义信息,并利用知识图谱中的实体之间的语义关系,计算每个用户和物品的邻居节点,并计算它们之间的相似度。根据相似度和历史行为,预测用户对未评分物品的评分。根据预测评分排序,将评分最高的物品推荐给用户。基于知识图谱的协同过滤推荐算法结合了知识图谱的语义信息和协同过滤的邻域信息,能够更好地解决数据稀疏和冷启动等问题,提高推荐效果。

二、功能简介

本项目通过研究各类学习风格模型后,结合在线学习环境的多样化、自主化、个性化等新特征以及数据集中的数据条目,参考Felder-Silverman(FSLSM)模型基础上,最终建立包含信息感知、信息接受、信息加工、学习行为投入、学习态度、社会化交互、本课程学习能力、新课程学习能力八个维度的学习风格模型,对在线学习环境中的学生构建用户画像,并爬取MOOC获取数据集中提到的课程对应的信息以及学生对课程的评价,结合学生选课学习表等数据,抽取学生和课程作为实体,将实体和关系映射到低维向量空间,采用五折交叉验证,并根据数据量的大小对模型的超参数进行设置,设置完成后,对所有样本进行训练,对所有的负样本打分并排序,取前自定义数量的数据,得到基于知识图谱的协同过滤推荐结果。
在这里插入图片描述

学习风格模型

三、技术方案

(一)项目思路

本项目基于在线教学平台提取的样本数据进行关联分析和数据挖掘,建立学生学习行为分析模型,从信息感知维度、信息投入维度、信息加工维度、学习态度维度、信息接收维度、社会化交互、本课程学习能力、新课程学习能力八个维度分析用户行为,并爬取MOOC的课程简介信息和学生对课程的评价信息分别进行词云和情感分析,帮助学生抓住课程关键信息,得到其它学生对于课程的反馈,及时调整自己的课程选择,便于教师及时了解学生的学习习惯和特点,从而为教师提供优化教学方法的参考;同时可以帮助平台了解用户的学习偏好、兴趣和需求,优化课程质量,进而通过基于知识图谱的协同过滤推荐向用户推荐个性化的学习资源。
项目解决问题思路

(二)主要内容

1.数据预处理

当学生通过在线教育平台进行学习时,他们一系列学习行为会产生相对应的学习数据。当学生需要完成课程学习的需求时,会产生登录日志记录,在线时长记录,课程签到、课程互动、查看视频、课件,视频、课件的浏览进度,查看作业、提交作业,查看考试,提交考试等行为数据。通过对于数据集提供的行为指标来进行行为特征描述错误!未找到引用源。,可以帮助搭建行为特征指标体系以及分析学习行为过程。

2.学习行为分析模型构建

通过八个学习行为分析维度对模型进行构建:

(1)信息感知维度

基于帖子浏览次数post_views划分学生学习类型为直觉型或者感悟型的假设前提是:直觉型学生更倾向于通过快速地、准确地获取知识,而感悟型学生更倾向于通过深入地感受和理解知识。
如果一个学生浏览的帖子次数比较少,往往说明该学生能够快速地获取到所需的信息,这可能表明该学生更倾向于直觉型学习;反之,则可能表明该学生更倾向于感悟型学习,因为该类学生需要更多的时间去理解和探究知识。

(2)信息投入维度

基于完成作业次数job_num划分学生学习类型为高投入型或低投入型的假设前提是:高投入型学生通常会更加积极地参与到课程学习中,而低投入型学生可能更容易产生学习疲劳或失去兴趣。
如果一个学生完成的作业次数比较多,往往说明该学生非常认真地对待课程,并且致力于学习,这可能表明该学生更倾向于高投入型学习;反之,则可能表明该学生更倾向于低投入型学习,因为该学生可能没有足够的意愿和动力来参与到课程学习中。

(3)信息加工维度

基于提前提交作业时间time_before_ddl划分学生学习类型为活跃型或沉思型的假设前提是:活跃型学生更倾向于通过快速地完成任务来获取成就感,而沉思型学生更倾向于通过深入思考和理解问题来获得知识。
如果一个学生能够提前完成作业,往往说明该学生非常努力地投入到学习中,并且具备一定的时间管理能力,提前提交作业的时间较长,这可能表明该学生更倾向于活跃型学习;反之,则可能表明该学生更倾向于沉思型学习,因为该学生需要更多的时间去深入思考和理解问题,也许会临近截止时间再提交作业,提前提交作业的时间短。

(4)学习态度维度

基于完成作业耗时consume_time划分学生学习类型为依赖型或独立型的假设前提是:依赖型学生更倾向于寻求他人的帮助和支持,而独立型学生更倾向于自主学习和解决问题。
如果一个学生完成作业的时间较长,往往说明该学生需要花费更多的时间来理解问题、获取知识或解决困难。这可能表明该学生更倾向于依赖型学习,因为该学生需要寻求他人的帮助和支持来解决问题。反之,则可能表明该学生更倾向于独立型学习,因为该学生更擅长自主学习和解决问题。

(5)信息接收维度

基于接收处理信息耗时receive_time划分学生学习类型为积极型或拖延型的假设前提是:积极型学生更倾向于快速地获取、理解和应用知识,而拖延型学生更倾向于拖延并在最后时刻完成任务。
如果一个学生在学习过程中能够很快地接收和处理信息,往往说明该学生具备较高的信息处理能力和学习效率,这可能表明该学生更倾向于积极型学习,因为该学生能够快速地获取、理解和应用知识;反之,则可能表明该学生更倾向于拖延型学习,因为该学生需要更长的时间来接收和处理信息,从而导致任务不能及时完成。

(6)社会化交互

从社会化交互维度,学生可以分为社交型、中间型和独处型。为了区分三种类型,使用的行为条目包括:发帖数,访问讨论区的次数,回帖数,阅读的帖子数,帖子被回复的数量,帖子被阅读的数量,查看自己作业的次数。
社交型的学生喜欢与他人交流,而独处型的学生偏爱独处。因而,社交型的学生在讨论区中比较活跃,喜欢通过发帖、回帖等方式与他人交流沟通。同时,社交型的学生的人际关系比较好,当他们发帖时,也会有较多的同伴回复或查看帖子。反之,独处型的学生在讨论区的活跃度不如社交型,他们倾向于关注自己的课业情况。中间型介于两者之间。

(7)本课程学习能力

进行本课程学习能力预测前,我们首先要对该课程的难度值进行评估,通过多模型对比的方式,选择最优模型,得到课程的平均难度,根据评估课程及课程中每个小节对学生的区分度和难易度,评估出学生的学习能力参数。
采用普通二乘法的线性回归方法,根据学生平时的表现来预测学生最终的课程成绩,将预测结果作为该学生本课程学习能力。模型构造、拟合以及检验步骤如图所示:
课程学习能力预测流程图

(8)新课程学习能力

进行跨课程学习能力预测时,若一名学生选择的课程与他之间学过的课程存在一定相似度时,这时可以通过课程之间的相似度预估出学生在新课程中大概的能力水平。
不同的课程之间可能存在着相关的联系,例如知识体系、课程难度等方面。基于网络上的课程的相关说明、课程开课院系以及所属专业、信息,计算不同课程说明的文本的余弦相似度,并把该相似度作为这两门课程之间的相似度,相似度与学生课程成绩的乘积作为该学生该课程学习能力的预测。由于不同课程的知识不可能完全相同,所以预测结果知识对学生新课程最初的学习能力的预估,即在没有任何新课程学习经历的情况下,学生拥有的课程学习能力。课程相似度的计算过程如下图所示:

课程相似度计算流程图

3.数据检验与用户画像输出

(1)比例统计量假设检验

对于本项目收集到的数据,经过数据预处理步骤后得到了处理过的DataFrame形式的数据df_clean。现对df_clean进行多项数据检验,以探索五组特征数据的特征关系;对于社会化交互、本课程学习能力、新课程学习能力三个维度,在系统实现中亦实现了对于数据的充分合理性检验。
首先对数据的比例统计量进行计算,同时提出假设,并基于比例统计量的计算结果进行假设验证,拒绝或接受原假设。
具体而言,本项目计算比例统计量F_statistic需要先收集一组样本数据并建立一个原假设,引用依赖方法statsmodels.stats.proportion再通过melt()将数据融合为单列,来验证原假设的可信程度;同时在进行假设检验时对p_value值进行了计算,用以同显著性水平进行比较,如果p值小于显著性水平,则可以拒绝原假设,认为样本数据中的特征比例与总体中的特征比例存在显著差异,反之亦然。
统计量F与P值的计算公式如下:
在这里插入图片描述

其中,MSR是平均回归平方和,MSE是平均残差平方和。

(2)多因素方差分析

多因素方差分析是统计学中常用的方法,本项目引入多因素方差分析用来判断特征变量之间是否存在复杂的关系,且可同时考虑多个变量,并用以研究数组特征变量之间的相互影响作用结果,并比较各组数据之间的差异。分析实现引入了statsmodels. stats.anova依赖方法。

(3)相关性检验

相关性检验用以判断各个变量之间是否存在相关关系。本项目输出相关系数(或皮尔逊相关系数)的计算结果,同时输出相关系数矩阵的热力图来进行可视化展现。
给出相关系数的定义如下公式所述:
在这里插入图片描述

若ρ_XY>0,表示随机变量X和Y呈正相关;
若ρ_XY<0,表示随机变量X和Y呈负相关;
若ρ_XY=0,表示随机变量X和Y不相关,即相互独立;
若ρ_XY=±1,表示随机变量X和Y呈线性相关。

(4)学生画像输出

对八个维度下学生的学习行为进行了字段的合理性分析以及充分性验证采用了 K-means聚类的方法对学生类型进行划分,聚类算法是一种无监督学习方法,不需要大规模的标记数据进行训练,可以根据数据的特征自动把相似的数据聚为一簇。
根据划分结果,本项目将八个维度下的学生具体画像进行融合,并于可视化看板进行大屏可视化输出。

4.通过文本分析的形式展示课程评论信息

现基于爬取的课程评价文本数据对学生学习平台的评价情感进行文本分析,赋予权值。其中分数(mark)为一分、二分的分类为消极评价(neg);分数为三分、四分、五分的分类为积极评价(pos)。
主要的流程如下图所示:
课程评价文本情感分析流程图

5.基于图谱方式的语义挖掘

为了方便学生更好抓住课程的学习重点,小组自行补充了数据集中提供的课程简介信息,在去除了其中的停用词和噪声之后,对文章进行长短句切分处理,然后作分词处理,采用LTP模型对切割出来的词语词性进行标注,统计其中的词频信息以及命名实体识别,识别出句子中的人名、地名、机构名等具有特定意义的实体,并提取主谓宾语。

(1)基于LTP模型处理课程简介文本

①分词
其中,S表示待切分的句子,W_i表示第i个词,G表示词典,T表示规则集合。
在这里插入图片描述

②词性标注
其中,W_1,W_2,…W_n表示输入的句子,P_1,P_2,…P_n表示对应的词性。
在这里插入图片描述

③命名实体识别
其中,W_1,W_2,…W_n表示输入的句子,e_1,e_2,…e_n表示对应的实体。
在这里插入图片描述

④依存句法分析
其中,x表示句子的词序列,y表示依存句法分析树。
在这里插入图片描述

⑤语义角色标注
其中,x表示句子的词序列,y_i表示第 i 个词的语义角色。
在这里插入图片描述

(2)基于TextRank算法的关键词提取

①分句分词
对文本进行分句和分词处理,得到若干个词语。
②确定相似度并转化为边权值
根据一定的规则确定每个词语之间的相似度,并将语义相似度转化为加权无向图中相应节点之间的边权值。
③TextRank排序得到词语得分
将构建好的图通过TextRank算法进行排序,得到每个词语的重要程度得分。
④选出文本关键词
根据阈值或者其他规则选取得分最高的词语作为文本关键词。
TextRank的算法公式如下:
在这里插入图片描述

(3)获取命名实体,构建命名实体共现网络

我们从经过命名实体识别的句子中,提取中与提取出的关键词列表中的关键词共同出现的实体,并统计它们之间的共现次数,构建实体之间的共现关系图。基于前面预先分割好的句子,在句子列表中悬殊同时包含两个及以上命名实体或关键字的子句。然后对于每一个命名实体,我们在符合条件的子句中查找与其关键字之间的关系,构建成事件列表。

(4)图谱化展示

我们根据输入的事件列表生成所有的节点,然后根据节点信息和实体关系信息生成数据节点和数据边列表,用group表示所属组,id表示节点的唯一表示,label表示节点的文本标签,并以关系图表的形式展现出来。

6.基于知识图谱的协同过滤推荐

为了能够更准确地预测用户的兴趣和行为,提高推荐的精度和效果。本小组根据学生的选课数据,与知识图谱中的实体、属性和关系进行联合挖掘和分析,使得推荐系统能够更好地理解用户的行为和偏好,提供个性化学习资源推荐的服务。

(1)TransE算法

以往训练知识图谱三元组的方法大多存在参数过多问题,以至于模型过于复杂难以理解,而TransE算法能够有效学习三元组的向量表达。我们认为定义一个距离d(x ⃗,y ⃗)来表示两个向量之间的距离,一般情况下,我们会取L_1或者L_2 normal 。那么我们需要的是对一个正确的三元组( h ,r ,t )其距离d(h ⃗+r ⃗,t ⃗)越小越好,相反对于一个错误的三元组( h’ ,r’ ,t ')来说距离d((h^' ) ⃗+(r^' ) ⃗,t ⃗')越大越好,因此给出目标函数如下所示:
在这里插入图片描述

∆表示正确的三元组集合,∆’表示错误的三元组集合,γ表示正负样本之间的间距,是一个常数,在这里插入图片描述
表示max⁡(0,x),通常加上约束条件||h||≤1,||r||≤1,||t||≤1。

TransE算法描述

(2)RESCAL算法

关系数据的张量模型

E–En表示实体,而R–Rm表示域中的关系定义了一个 tensor,m是关系数,n是实体数,每个关系对应于tensor中的一个slice,即一个矩阵,每个矩阵相当于表示图的邻接矩阵。位置元素为 1 代表两个实体之间存在这种关系,为0表示不存在。
对tensor进行分解:
在这里插入图片描述

A是n×r的矩阵,表示每个实体的隐性表示(latent-component representation),R_k是r×r的非对称矩阵,建模第k个属性/关系中的实体latent component的交互。
矩阵A和R_k通过约束最小化问题来计算:
在这里插入图片描述

特别要提的是R_k是非对称矩阵,这样可以建模非对称关系,在同一个实体作为头实体或尾实体时会得到不同的latent component representation。
其中,
在这里插入图片描述

更具体地:
在这里插入图片描述

这样的分解机制可以利用相关实体提供的信息进行表示,类似推荐里的协同过滤,这里称为collective learning。

(3)K-Fold 交叉验证

验证数据取自训练数据,但不参与训练,这样可以相对客观的评估模型对于训练集之外数据的匹配程度。模型在验证数据中的评估常用的是交叉验证,又称循环验证。它将原始数据分成K组(K-Fold),将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型。这K个模型分别在验证集中评估结果,最后的误差MSE(Mean Squared Error)加和平均就得到交叉验证误差。交叉验证有效利用了有限的数据,并且评估结果能够尽可能接近模型在测试集上的表现,可以作为模型优化的指标使用。
我们采用五折交叉验证,划分五折,测试模型性能后,预测新的选课关系,对所有数据进行训练。

7.数据可视化大屏

(1)整体画像展示

通过建立学生学习行为分析模型,从信息感知维度、信息投入维度、信息加工维度、学习态度维度、信息接收维度、社会化交互、本课程学习能力、新课程学习能力八个维度分析用户行为,形成整体的学生画像;同时,爬取MOOC的相应课程的学生评价信息分别进行词云和情感分析,帮助学生抓住课程关键信息,得到其它学生对于课程的反馈,及时调整自己的课程选择,便于教师及时了解学生的学习习惯和特点,从而有助于教师优化教学方法,及时调整教学计划和内容。

(2)学生画像及个性化课程推荐

通过深入挖掘学生课堂活动参与情况、作业完成情况等信息,构建学生个人的用户画像,生成学生本人的学习行为分析报告,并爬取MOOC对应的课程简介信息,通过基于图谱的语义解析获取课程简介中的关键词,帮助学生抓住课程关键信息,并结合学生的选课行为数据,进行基于知识图谱的协同过滤推荐,给予用户个性化的课程推荐。

(3)班级学情分析,促进教学改进

通过数据大屏直观的显示考试成绩分析、及格率分析、平均分分析和作业完成情况,并通过知识图谱的方式显示课程重点,可以帮助教师更好地了解班级学生的学习状况和问题症结,制定符合实际情况的教学计划和策略,同时也可以促进学生间的比较和学习交流,激发学习动力,促进个人的成长和发展。

六、项目实现

(一)数据预处理的实现

1.数据读取

对于超星学习平台发布的数据,考虑到数据集的维度多样性与各表间的字段联动性,我们通过pandas使用read_csv函数对数据进行读取,将xlsx数据集转化为csv逗号分隔值文件后,以DataFrame的形式对数据集进行处理,有助于对数据集进行接下来的操作。

2.数据清洗

本次使用的数据集是超星集团从后台抽取出来的部分经过隐私化处理的在线学习平台后台数据,数据表量大且关系复杂并且由于是公共平台,社会各界人士都可以在上面注册登录账号,并产生学习行为记录。在实际获取信息和数据的过程中,也可能因为各类原因导致数据的丢失和空缺,所以数据中包含了一些缺失值、异常值等。
基于变量的分布特性和变量的重要性,我们选择删除了一些数据缺失字段以及无意义字段或者根据数据分布的情况用基本统计量对一些缺失值作了填充处理。对于样本数量较少的数据集中的异常值,我们把它当作缺失值,并使用该变量下其他数的值进行替换;删除样本数量较多的数据集中的异常值。

3.数据集成

对于超星学习平台发布的数据集中的数据,我们对于数据表中各个字段的关系进行了判断,并根据实际情况将这些数据集合并当到一个数据中存储。在进行数据集成时,若数据集A中某属性名字和数据源B中某属性名字相同,但所表示的实体不一样,我们对其中一个字段名进行了修改,避免模式集成时产生错误;当两个数据集中的两个属性所代表的实体一致时,可以将其作为关键字。数据集中往往存在着数据冗余,可能是同一属性多次出现,也可能是属性名字不一致导致的重复,对于重复属性作相关性检测后,可以进行统一合并,但需要保持规范化,若遇到重复的,需要去重。

4.数据变换

我们使用了规范化处理,数据中不同特征的量纲可能不一致,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果,因此,需要对数据按照一定比例进行缩放,使之落在一个特定的区域内,便于进行综合分析。

5.数据归约

我们主要通过减少一些与本文研究相关度不高在线学习行为特征属性的方式进行数据规约,如学生的用户名、最近登入时间信息等,同时选取其中与学生能力特征相关度较高的学习行为特征属性作为学习行为分析指标。

(二)行为模型构建的实现

1.信息感知维度

对信息感知维度的数据集进行了数据清洗后的单变量分布直方图如下图所示:
帖子浏览次数分布

单分布直方图可以给出每个学生类型在信息感知维度下的数据分布情况,其中,横坐标为帖子浏览次数,纵坐标为学生对应提前提交作业时间所的频率,核密度线反映了数据的走势。
为验证分数score与帖子浏览次数post_views的线性关系,使用线性回归关系图来显示学生的帖子浏览次数与分数的线性关系,并输出线性回归关系图如下所示:
帖子浏览于分数分布线性相关检验

不难看出,分数-帖子浏览次数呈线性增趋势,即分数越高的学生,往往浏览更多次的帖子,对于分数与帖子浏览次数的预测基本符合现实常理。从平均表现来看,数据大多分布于线性图中央,即代表数据真实性较可靠,可用于维度分析。
根据FSLSM学习风格模型,在信息感知维度下将学生分为感悟型与直觉型,故可基于此使用K-Means算法对学生的浏览次数进行聚类。在本例中,k设置为2,即将学生划分为直觉型和感悟型两类。
输出K-Means聚类的散点图划分结果如下图所示,在信息感知维度下的学生被成功划分为两个类型:
信息感知维度聚类划分结果

2.信息投入维度

从学生类型来看,高投入型学生相对于低投入学生有更多的作业完成次数,考虑以作业完成次数来预测高投入型的学生学习成绩表现会更好。现对完成作业次数进行单分布直方图的输出,如下图所示:
完成作业次数单分布直方图

从数据清洗后的完成课后作业次数字段体现来看,学生完成课后作业的情况分布比较正常。由于课后作业有上限限制,故考虑有学生在完成课后作业方面全勤,所以在数据体现方面,次数分布在30左右的学生为全勤学生。再对线性关系图进行输出有:
作业完成次数与分数线性相关检验

不难发现,学生的课程分数与完成课后作业次数呈明显的线性相关性。其中,全勤学生的分数分布基本维持在80分或以上的高分数分段,具体表现为这些学生在信息投入维度是高投入的,而完成次数为0次或完成次数较少的学生分布在低分段,具体表现为信息投入方面是低投入的。输出K-Means聚类的散点图划分结果如下图所示,在信息投入维度下的学生被成功划分为两个类型:
信息投入维度聚类划分结果

3.信息加工维度

对信息加工维度的数据集进行清洗后得到的单变量分布直方图如下图所示:
信息加工维度单变量分布直方图

其中,横坐标为提前提交作业时间(day),纵坐标为该提前提交作业时间所对应的频率,核密度线反映了数据的走势。
从单变量分布直方图不难发现,有很大一部分程度的学生习惯于在临近作业提交的截止时间提交作业,说明对信息的加工处理方式偏向于沉思型;同理,也有部分同学在提前截止时间很早的一段时间中就提交了作业,显而易见,这一部分学生为活跃型的学生,在加工信息方面有更早的计划,或有更高的作业完成积极度。
判断分数score与提前提交作业时间time_before_ddl的线性关系可输出线性回归关系图如下所示:
提前作业提交时间与分数线性相关检验

根据线性回归关系图不难看出:随着分数的增高,在中低分段(20至60分)的学生更倾向于提早提交作业,沉思的时间较少;相反,对于高分段的学生而言(大于60分),学生的提前提交作业时间基本分布在提交期限日期附近,即沉思时间较多。从平均水平来看,分数成绩表现为平均的学生,其在提前提交作业时间方面也表现出相对平均的水平,比较符合现实的描述情况。
基于此,对于信息加工维度的学生学习行为风格类型的判断,可基于提前提交作业时间特征字段来进行维度的描述。对沉思型或活跃型学生进行类型划分,选取划分簇数为2进行K-means聚类得到的散点图划分结果如下图所示:
信息加工维度聚类划分结果

4.学习态度维度

输出单分布直方图如下图所示:
学习态度维度单变量分布直方图

从单分布直方图来看,学生的完成作业耗时分布较为均匀,为探究分数与完成作业耗时的关系,输出线性相关图如下图所示:
完成作业耗时与分数线性相关检验

在分数区间内,完成作业耗时与分数有可拟合的线性关系,猜测为分数越高的学生,更加习惯于对提交的作业进行反复检查或订正,依赖程度越少,独立程度越高,即独立型的学生在分数成绩方面的表现较好,符合现实常理。
对于上述拟合结果,可根据K-Means聚类的散点图划分结果如下图所示,在学习态度维度下的学生被成功划分为两个类型:
学习态度维度聚类划分结果

5.信息接收维度

对信息接收维度的数据进行清洗后输出单分布直方图如下图所示:
信息接受维度单变量分布直方图

从单分布直方图中可以看出,大部分学生的接收处理信息耗时分布在整体平均耗时附近;而整体看来,接收处理信息耗时并不符合正态分布,考虑原因即为拖延型的学生可能存在信息滞后现象或抄袭现象,具体的表现为接收了信息但拖延不处理,信息接收与处理时间的差值特别短。输出分数与接收处理信息耗时的线性图如下图所示:
信息接收处理时间与分数线性相关检验

可以发现,成绩越低的学生,其在接收处理信息耗时方面表现出更大的差异,而积极型学生的接收处理信息耗时相对正常,分数分布上来看也呈现出符合常理的趋势。
基于此,对信息接收维度选取划分簇数为2进行K-means聚类得到的散点图划分结果如下图所示:
信息接收维度聚类划分结果

6.社会化交互

t_stat_bbs.xls表记录了所有参与过讨论的学生用户或老师用户的发帖数记录和回帖数记录,对于从未参与过讨论的学生用户将其社会化交互类型划分为沉默型。
以下数据建模分析只针对于参与过讨论的学生用户,统计出来的学生用户课堂讨论次数情况如表3所示。
从表中可以看出,学生与老师的讨论互动明显弱于学生之间的讨论互动,学生更倾向于与自己角色类型相同的用户社交。
在这里插入图片描述
将学生的讨论情况通过统计图的形式展现,如下图所示。从图中可以直观地看到,学生讨论总次数(即发帖和回帖总数)存在较大的差异,大多数的学生用户的总讨论次数主要由回帖数构成,其中回学生帖数占较大比例。
学生讨论次数柱形图

为了区分学生用户的社会化交互类型,进行K-均值聚类分析。利用K-均值聚类分析避免了通过确定指标的阈值来定性的比较判断学生所属的社会化交互的类型,而是通过对该学期的所有讨论数据的定量分析得出结果,很好地考虑到了老师的上课风格、课堂氛围等影响学生讨论积极性的因素。
在聚类分析之前,先对数据进行0-1标准化处理,去除数据大小差异的影响,确保数据是在同一数量级下进行比较。
计算各变量间的皮尔逊相关系数,查看变量之间的多重共线性。结果如图所示:
皮尔逊相关系数矩阵
回学生帖数与变量总回帖和发帖数、回帖数和发帖数之间的相关性都较高,相关系数分别为1、0.99、0.71和1,说明学生用户的讨论记录主要是由学生与学生之间的互动而产生的;变量总回贴和发帖数与变量回帖数相关系数为0.99,高度相关,说明学生的讨论记录主要由回帖记录构成。为了避免重复计算高相关性特征,剔除掉变量回学生帖数(reply_to_teacher)和变量回帖数(num_of_reply)。重新计算相关系数,各变量间的相关系数均低于0.73,结果如图所示:
剔除变量后的皮尔逊相关系数矩阵
根据手肘图和轮廓系数来确定聚类数量。图25为基于平均离差的手肘图。
从图中可以看出,当k取3时,平均离差迅速下降,已经较趋近于0,随后平均离差的下降速率趋于平稳。
基于平均离差的手肘图
当k增加到3时,SSE值下降速率较快,随着k继续增大,SSE值得下降速率逐渐趋于平缓。
为基于误差平方和的手肘图
下图显示了轮廓系数随k值的变化情况。当k取3时,轮廓系数达到较大,且在k=3左右两边轮廓系数均有较为快速的减小,此时聚类效果很好。
轮廓系数变化图

K-Means算法的主要思想是首先给定聚类个数K,采用目标函数最小化的方法将原始数据X=(x_1,x_2,…,x_i)分为K类,其中X是d维向量。该方法在聚类的过程中,需要不断地修正与调整,初始聚类中心的选择会严重影响聚类的效率和时间,聚类中心的选择太近或太远都会影响最终的效果,要使K个聚类中心相互之间距离越远越好。聚类数确定方法具体如下:
采用三种方法来来确定聚类数k值,分别为基于平均离差的手肘图、基于簇内误差平方和的手肘图和轮廓系数法。随着聚类数k的增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高。当k小于真实聚类数时,由于k的增大会大幅增加每个簇的聚合程度,所以手肘图的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,且随着k的增大变化越来越平缓。从手肘图的结果来看,最佳聚类数为3。
但手肘图也存在一定缺点和极限,它容易受到特征数目以及超参数k的影响,且在数据满足凸分布的假设下,会让聚类算法在一些细长簇、环形簇或者不规则形状的流形时表现不佳。所以我们又引入了轮廓系数来判断聚类效果的好坏。
轮廓系数在有限空间中取值,且对数据的分布没有限定,使得我们对模型的聚类效果有一个参考。轮廓系数是对每个样本来定义的,它能够同时衡量:
样本与其自身所在簇中的其他样本的相似度a,等于样本与同一簇中所有其他点之间的平均距离。
样本与其他簇中的样本的相似度b,等于样本与下一个最近的簇中的所有点之间的平均距离。
单个样本的轮廓系数计算公式为:
在这里插入图片描述
轮廓系数的范围为(-1,1),当值越接近1,表示样本与自己所在的簇中的样本很相似,并且与其他簇中的样本不相似;当样本点与簇外的样本更相似时,轮廓系数为负值;当轮廓系数为0时,表示两个簇中的样本相似度一致。
若一个簇中的大多数样本均具有较高的轮廓系数,簇会有较高的总轮廓系数,则整个数据集的平均轮廓系数越高,表示聚类是合适的;若许多样本点具有低轮廓系数甚至负值,则表示聚类是不合适的。结果表明,当k取3时,轮廓系数最大,大于0.8;k值取[2, 9]之间的值时,所有的轮廓系数均为正数。
综上所述,在社会化交互,本/新课程学习能力维度将聚类数k定为3。
对上述预处理后的数据进行K-均值聚类,为每一条记录打上一个标签,标签0表示为独处型,标签1表示为中间型,标签2表示为社交型,最终得到3个聚类中心的坐标分别为:(0.3719,0.5500,0.3656,0,0.3900)、(5.5511×10^(-17), 5.5511×10^(-17),0.0625,1,0)和(2,0.4583,0.5,0.4583,1,0.4222)。
对数据进行降维处理绘制聚类散点图,结果如图所示:
聚类散点图

7.本课程学习能力

统计并计算学生课程作业的平均分和课程总分,数据分别来自t_stat_work_answer.xls和t_stat_student_score.xls表。以编号为222602451的课程为例,说明学习成绩预测分析过程。
下图是选了编号为22602451的课程的学生作业分数和最终分数情况。由下图左可以看出,学生的作业分数与课程最终成绩之间存在一定的相关关系,即当作业分数较高时,课程最终成绩也会较高。将数据按学生作业成绩排序,根据下图右,随着学生作业分数的上升,课程最终成绩整体也呈现上升的趋势,存在少量作业分数与最终成绩呈相反变化的样本。
学习预测分析

由于样本数据较大,建模之前先对数据进行归一化处理,采用Max-Min标准化的方法,具体方式如下:
在这里插入图片描述
其中:
x_i表示第i位学生的作业平均分数score,y_i表示第i位学生的课程最终成绩;
x_min和x_max分别表示一门课程中最高的作业平均分和最低的作业平均分;
y_min和y_max分别表示一门课程中最高的最终课程成绩和最低的最终课程成绩;
假设模型具体表现形式为y = ωx + b。使用该模型构造目标函数,以梯度下降法对目标函数进行优化,并以均方误差为优化指标。梯度下降法的迭代公式为:
在这里插入图片描述
设置,对上式进行迭代,设置最大迭代次数为10000次。
下图显示了函数拟合效果:
函数拟合效果

8.新课程学习能力

对于课程A和课程B的信息,分别进行分词处理。为了去除掉无效信息,参照哈工大停用词表去除分词结果中的停用词。得到课程A和课程B的分词列表:
在这里插入图片描述
将词列表A和B合并去重,得到包含所有词的列表:
在这里插入图片描述
分别统计课程A和课程B的词频,将词频结果作为特征值,并分别进行向量化。课程A和课程B的特征向量分别为:
在这里插入图片描述
上式中,f_(A_k )表示列表 T(A,B)中的第k个词w_k在列表A中的词频,f_(B_k )表示列表 T(A,B)中的第k个词w_k在列表B中的词频。
计算余弦值的公式如下:
在这里插入图片描述
地大20门课的数据,计算得到的20门课程之间的相似度如图31所示。可以看到,文科类的课程与理工科类的课程的相似度低,相对来说同类型课程之间的相似度和同一学院开设的课程之间的相似度较高。
课程相似度
以下以课程液压传动(编号为222602451)为例说明分析结果。表4是课程液压传动与其他8门课的相似度(还有11门课的相似度未展示),相似度介于0和1之间,0表示完全不同,1表示完全相同。
在这里插入图片描述
下图为选择了液压传动课程的学生选择岩溶水文地质学课程的预估课程初始学习能力。横轴表示不同的学生,纵轴表示预测的分数。
预估课程初始学习能力
新课程初始学习能力也可以为学生选课推荐作参考,预估的数据一定程度上体现了学生知识运用和迁移的能力水平,学生可以综合自身学习能力水平和课程知识体系做出选课决定。

(三)用户画像输出与数据检验的实现

1.比例统计量假设检验实现

对于进行比例统计量的假设检验并实现,本项目给出下述步骤:

(1)提出假设

对五组数据提出两组假设H_0与H_1:
零假设H_0:五组数据的均值相等
备选假设H_1:五组数据的均值不相等或者不全等

(2)选取特征字段并计算

由于社会化交互、本课程能力、新课程能力的系统实现过程完成了数据检验,次数仅选取信息感知、信息加工、信息投入、学习态度、信息接收五个维度进行检验,依赖stat.f_oneway()完成统计量F_statistic与P值p_value的计算,结果如下表所示:
在这里插入图片描述
从计算结果来看,函数返回的是F统计量和p值两个参数,F统计量的计算结果即表示不同组之间的差异显著;同时,依据p_value<0.5与否来判断在置信水平alpha的前提下是否拒绝原假设,若小于,则可以拒绝原假设,即各组数据来自同一总体。

(3)拟合模型后计算最终结果

通过melt()方法将各组数据融合为一列,并基于stat. proportion进行模型的拟合,最后调用anova_lm()方法并传入已拟合的模型,得到最终的输出结果,结果如下表所示:
在这里插入图片描述
综上所述,由于F值的显著性充足,以及P值的数值小于显著性水平数值,故对于原假设H_0而言,是可以拒绝原假设,即五组数据的均值是不相等或者不全等的。

2.多因素方差分析实现

同样地,基于stats.anova实现多因素方差分析,选取五个维度作为特征字段变量,因变量选取为分数,并输出分析表格。
结果如下表所示:
在这里插入图片描述
其中,sum_sq 表示了总平方和;df 表示自由度;F 表示 F 统计量;PR(>F) 为 p 值,用来判断在置信水平 alpha 的前提下,是否拒绝原假设。
同时引入了OLS(Ordinary Least Square)回归,用以进行数据建模和分析的统计技术。依赖sm.OLS()即可实现相关性检验与OLS回归分析,结果如下所示:
在这里插入图片描述
再输出模型矩阵,得到以下表格:

在这里插入图片描述

3.相关性检验实现

通过np.corrcoef()绘制并输出五个特征变量的相关性矩阵,结果如下:
相关性矩阵
结合比例统计假设检验结果与多因素方差分析结果具体来看,每个自变量的参数如下,分别表示该自变量对分数的影响:

  • 提前提交作业时间:负相关,即提前提交的学生更容易获得更高的分数;
  • 帖子浏览次数:正相关,即帖子被更多人浏览的课程会得到更高的分数;
  • 完成作业次数:负相关,即完成作业次数越少的学生分数越高;
  • 完成作业耗时:正相关,即花费更多时间完成作业的学生更容易获得更高的分数;
  • 接收处理信息耗时:虽然p值大于0.05,但是可以看出此项自变量对分数影响较小。
    整个模型的回归系数为:
  • 截距项:38.5560;
  • 提前提交作业时间:-0.6737;
  • 帖子浏览次数:1.7982;
  • 完成作业次数:-0.1211;
  • 完成作业耗时:0.2212;
  • 接收处理信息耗时:-0.0312。
    模型的 R-squared 指标为 0.62,表示 62% 的因变量的变异可以被自变量解释。同时,基于 F 统计量的显著性检验的结果表明,在置信水平alpha = 0.05 的情况下,拒绝原假设,即认为该模型是显著的。
    综上所述,用于该项目研究的数据在充分性与合理性方面有较好的稳定性,适合用于进行学习行为的分析以及衍生研究。

4.学生用户画像的输出

读取需要输出学生画像的学生画像表stu_portrait.csv,输出得到处理后包含维度分类的画像表stu_portrait_clean.csv以及结果如图28所示,其中本课程学习能力和新课程学习能力的展示都以课程液压传动为例。
可以看到,编号为111943630的学生偏好与他人交流,信息加工维度为活跃型;偏向于抽象的学习,信息感知维度为直觉型;上课专注,能够积极参与课堂活动,信息投入维度为高投入型;自我监控能力低,学习态度维度为依赖型;能够即时处理接收到的新信息,信息接收维度为积极型;没有参与过讨论,社会化交互维度为独处型;课程液压传动的学习能力一般;若课程液压传动为新课程,则该学生这门课的学习基础薄弱。根据该学生的用户画像,可以从以下方面调整学习行为:增加学习思考的时间与深度,增加对学习材料的学习,提高自控力,加强自我监督,积极参与课堂讨论。通过学习行为的调整,从而提高本课程学习能力,并在一定程度上提高知识迁移能力,进而提升新课程学习能力。
画像输出结果

(四)课程评价情感分析的实现

首先依赖pd.read_csv读取课程评价信息.csv文件,转换字符格式为str并展示(其中,content列为评价文本列,id表示爬取的评价编号;content_type列表示评价的情感类型,以列mark为划分依据,若mark=1或2,则表示该评价为消极的,type=neg,反之则为积极的,type=pos):

频率统计型描述展示
以id=4的评价为例,该评价信息得分mark=3,但是评价有明显的消极倾向。故对于情感类型与得分不匹配的评价信息,需要对其进行深入的文本处理:
通过duplicated()函数去除重复字段,out为重复字段数,再drop_duplicates()删除重复字段。
数据去重
再对无用词进行去除,由于“老师”“学生”“学习”“课程”等词对于文本分析而言没有用处,故去除,并使用re.compile()。re.sub()替换字符串匹配项。
去除无用词
去除重复值与无用词后,定义一个简单的自定义分词函数,并对词性进行分类。
自定义函数分词
在自定义分词函数后对上述词语转换为数据框的形式。其中,一列是词,一列是词语所在的句子id,最后一列是词语在该句子中的位置。此处给定n_word为每一评论中词的个数,n_content构造词语所在的句子的id。之后,将嵌套的列表展开,作为词所在评论的id,使用列表推导式将嵌套的列表展开为一个列表;再给定word,nature分别为词和词性,content_type评论类型也按照上述展开嵌套列表的方式进行处理。最后,构建DataFrame数据框result,赋予四个字段为上述提及到的字段,结果如下图所示:
重新构造数据框对处理结果进行标点删除:
再对停用词进行清洗处理,此处参考了哈工大停用词表,川大智能实验室停用词表,中文停用词词表三个词表作为总停用词表stoplist.txt,再基于该词表进行停用词的删除。
基于停用词表删除停用词
删除停用词后,剩余的评价数据数量减少,处理效率再次提高,为完成词性含有名次类的评价提取,再构造各个词在评价中位置的列index_word:
构造各词在评价中的位置列
构造完各词在课程评价中的位置列后,对含名词的评价进行提取,并读入正负面情感评价词表,该词表提取自知网,分为正/负面情感词表和正/负面评价词表。将情感词和评价词的正负面词汇进行合并,同时检索正负面表中相同的词并去除,对这些词赋予权重后(正面词赋权1,负面词赋权-1)将分词结果与正负面情感词表合并,定位情感词。
之后,加载否定词表.csv构造新列处理否定词。保留有情感值的词语后,计算与调整每条有情感的评价,引入情感类型a_type,给情感值大于0的赋予评论类型pos,小于0的赋予neg,输出情感分析结果如下图所示:
评价文本情感分析结果
输出混淆矩阵-交叉表,可以直观地看到评价类型与情感类型的关系:
混淆矩阵-交叉表输出结果
基于混淆矩阵的输出计算结果,对本项目的课程评价情感分析准确率进行计算,输出准确率约为0.863,说明本项目对于课程评价的文本情感分析准确率较高,在结果呈现上有一定的合理性:

课程评价文本情感分析准确率
最后,根据提取的正负面评论信息,以两门课为例,数据中选取“数据结构”“智能制造大数据技术”两门课进行词云输出,得到两门课程下学生的文本评价情感词云。
数据结构的正负面情感词云如下:
课程“数据结构”的正面情感词云
课程“数据结构”的负面情感词云
智能制造大数据技术的正负面情感词云如下:
课程“智能制造大数据技术”的正面情感词云
课程“智能制造大数据技术”的负面情感词云

(五)基于图谱的语义挖掘的功能实现

以《农业气象》课程为例,通过LTP模型处理课程简介文本并基于TextRank算法计算的结果如下:
提取词语的权重列表
提取词语的类型列表(部分)
对图谱化的结果进行展示:
知识图谱展示

(六)基于知识图谱的协同过滤推荐的实现

首先读取学生选课的数据,将选课关系读取成矩阵:
选课关系读取成矩阵
然后分别提取正样本和负样本的位置信息:
提取正样本和负样本的位置信息

接着对训练集、测试集、验证集进行划分:
训练集、测试集、验证集的划分

然后我们将知识图谱嵌入其中,在模型训练完毕后,提取出实体和关联的embedding,并构建负样本库:
构建负样本库

由于我们是为了给学生推荐他可能会感兴趣的课程,所以对负样本进行打分,基于打分结果推测学生的选课行为,及时调整课程的设置,便于教学管理。
基于知识图谱的协同过滤推荐算法能将各类数据很好地融合在一起,通过丰富的实体和关系类型来描述不同课程和用户之间的语义关联,能够对数据进行有效的补充和扩展,缓解数据稀疏性带来的冷启动问题,同时它的推荐准确性更高。推荐的结果如下图所示:
基于知识图谱的top-100协同过滤推荐结果

其中,绿色圆表示课程,蓝色圆表示每位学生具体的学生编号。

(七)数据可视化大屏呈现

基于上述步骤,我们得到了诸多呈现结果,并将这些结果放置于数据可视化大屏下呈现,得到的展示图结果如下:

1.整体画像展示

屏可视化展示——维度分类&词云散点图

大屏可视化展示——维度分类&词云饼状图

2.学生画像及个性化课程推荐

大屏可视化展示——学生学习行为分析报告&个性化课程推荐

3.课程学情分析

大屏可视化展示——课程总体学习情况


结语

(一)项目目标与完成情况

本项目旨在基于在线教学平台提取的样本数据进行关联分析和数据挖掘,建立学生学习行为分析模型,从信息感知维度、信息投入维度、信息加工维度、学习态度维度、信息接收维度、社会化交互、本课程学习能力、新课程学习能力八个维度分析用户行为,并爬取MOOC的课程简介信息和学生对课程的评价信息分别进行词云和情感分析,帮助学生抓住课程关键信息,得到其它学生对于课程的反馈,及时调整自己的课程选择,便于教师及时了解学生的学习习惯和特点,从而为教师提供优化教学方法的参考;同时可以帮助平台了解用户的学习偏好、兴趣和需求,进而通过基于知识图谱的协同过滤推荐向用户推荐个性化的学习资源。项目完成情况暂达到预期目标,但在数据预处理与挖掘过程方面仍有提升空间。

(二)项目经验与教训总结

对学生行为进行维度划分时,变量的选取受到课程数量、学生登陆状态等因素的影响,使得维度划分的数据依据减少。在接下来的工作中,随着数据的扩充和用户登陆状态的进一步确定,会进一步提升维度划分依据的充足性和划分结果的精确性。同时,知识图谱的构建是本文的基础工作,它的质量关系着推荐系统的效果。本文在使用的知识抽取技术较为传统,无法挖掘出实体间更高阶的关系,进而限制了知识图谱对模型的辅助能力。因此后续工作考虑对模型进行优化,从而更好的挖掘知识图谱信息。

(三)未来的展望

本文数据分析是基于历史的数据,数据量较丰富,能够挖掘出过去一段时间内在线平台中的学习行为特征。对历史数据的分析有一定的滞后性,历史数据多少的选择也会影响到结果的准确率。在后续的工作中,我们会进一步扩大数据量,同时时刻关注当前政策以及教育教学安排的变化,使我们的分析结果更精确,并且能在未来一段时期内为学校、学生、教师及相关部门的决策提供思路。

  • 25
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wesley_xx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值