基于在线教学平台的数据挖掘与学习行为分析

Wesley_xx

已于 2025-02-21 22:10:08 修改

阅读量9.6k

点赞数 37

文章标签：数据挖掘人工智能 python 推荐算法

于 2024-03-23 12:42:37 首次发布

本文链接：https://blog.csdn.net/qq_51305920/article/details/136963110

版权

项目链接： Data-Mining-and-Learning-Behavior-Analysis-Based-on-Online-Teaching-Platforms
数据集链接: 基于在线教学平台的数据挖掘与学习行为分析【超星集团】数据集
【2026/2/20过期】

前言

近年来，随着在线教育和MOOC（Massive Open Online Courses，大规模开放式在线课程）教育的兴起，积累了海量教学行为数据与知识资源。由于教育资源的繁杂，用户难以在众多的教育资源中找到符合自己需要的学习资源，在接受信息的过程中容易形成“学习迷航”和“认知过载”。同时，教学过程发生在网络环境中，和线下课堂教学不同，教师无法全程了解和监督学生的学习情况。而对教育大数据的分析挖掘有助于破解上述难题，为智慧教育发展注入新的动力。对于学生的用户画像问题，利用大数据技术对学生的学习行为分析有助于获得学生的学习能力、学习兴趣与意图等个性化特征，使得在线教育平台为学生提供个性化学习服务提供了可能。对学生学习能力进行建模，可以对学生的学习能力有一个客观的评价，使得学生对自己的能力有一定的认识，老师可以根据学生的学习能力制定相应的学习计划。
对学生的学习兴趣、学习意图与学习风格进行建模，一方面可以为学生推荐与其兴趣与意图相匹配的学习资源与学习伙伴，为课程提供者以及平台提供学生所需求课程的资源，可以方便平台及课程提供者提前储备学生需要的学习资源。另一方面也可以探索学生的学习风格和行为模式的倾向性，预测学业成绩，并为不同类型的学生量身定制学习服务，从而为教学策略的制定，及时实施学业预警等干预措施提供科学依据。
关于学习行为分析的研究国外早于国内，科研成果也更丰富。国外学者关于在线学习行为分析的研究内容多为分析学生的学习行为，识别潜在的学习模式和风格，对学习行为进行分析、预测、评估以及适当的干预来达到提高学生在线学习效果的目的。
本项目基于在线教学平台提取的样本数据进行关联分析和数据挖掘，建立学生学习行为分析模型，从信息感知维度、信息投入维度、信息加工维度、学习态度维度、信息接收维度、社会化交互、本课程学习能力、新课程学习能力八个维度分析用户行为，并根据学生对课程的评价进行词云和情感分析，得到学生对于课程的反馈，便于教师及时了解学生的学习习惯和特点，从而为教师提供优化教学方法的参考；同时可以帮助平台了解用户的学习偏好、兴趣和需求，进而通过基于知识图谱的协同过滤推荐向用户推荐个性化的学习资源。

一、创意描述

（一）学科交叉

1.计算机科学与技术

计算机科学与技术是本课题主要运用到的学科之一。本项目以在线教育平台为基础，对平台用户的学习数据利用数据挖掘和数据分析等技术进行用户画像的构建及不同维度分析，为用户的学习效果进行反馈。

2.统计学

在本课题的调研中，我们需要查阅大量文献资料并收集大量相关数据并从中提取、分析出有效结果。这要求我们要具备一定的统计学知识，要掌握资料查询、文献检索及现代信息技术所要求的其他信息获取基本方法。同时，在对获取的所有数据进行最终的归纳、整理、分析时，我们也需要将统计学理论运用到实践中，对在线教育数据分析在实践中出现的问题进行整理，并根据现象与成因提出方案，同时预测暂未发现但可能发生的问题，尽可能地去规避。

3.教育学

教育学是一门研究人类的教育活动及其规律的社会科学。本次课题主要研究重点为在线教育的数据分析，与教育学有高度正相关性，我国教育现今强调“以人为本”，随着互联网普及以及随着“双减”政策的推出，无论是社会人士还是学生都可以随时随地利用互联网进行学习，在线教育理应受到重视与扶植。因此，本次研究必用到教育学知识。

4.管理学

管理学的目的是研究在现有的条件下，如何通过合理的组织和配置人、财、物等因素,整合组织的各项资源，提高生产力的水平,实现组织既定目标的活动过程。本小组在该项目执行过程中细致分工，运用管理学,对工作进行分割管理，对人员进行分配管理，保证每个成员的优势最大化，使小组效率最大化，达到预期的理想效果。

（二）研究方法多样化

1.数理实证研究

有目的的对在线学习平台的数据进行统计、清洗、转换和建模，从而对学生学习行为进行分析和分类。数理实证研究适合研究复杂、多变量的问题，在本研究中运用数理计量方法量化指标，有利于把握复杂现象以及不同变量之间的联系。

2.定量分析方法

在不同的维度中确定不同的指标定量的将学生行为划分到不同类别。通过定量的方法来探究在线学习行为数据的数量规律性，能使我们对研究对象的认识更加精确化和客观化。

3.描述性研究法

以大学生群体在线学习平台数据为对象进行分析和处理，开展网络资源语义关联分析、学生知识结构分析、MOOC学习行为分析构建用户画像与课程资源推荐等研究工作，通过分析其表现出的大数据特征，并与数据挖掘领域的机器学习算法相结合，构建在线学习行为分析模型的总体架构，并通过机器学习的多种模型判断构建模型的预测准确度，以求给学生的学习能力一个客观的评价。

（三）模型研究的创新

1.统计分析模型

根据所收集到的学生数据表信息与特征字段，在维度分析下参考了不同类型的统计分析模型，如：线性回归模型、3Sigma模型、K均值聚类模型、朴素贝叶斯概率模型等模型，以处理与挖掘不同维度下学生关于特征字段的具体表现。

2.基于LTP模型语义解析

根据爬取的课程简介信息，分词：LTP模型采用基于词典和规则的分词方法，通过查找词典和应用一定的规则，将句子切割成词块。使用基于“平均感知机”（Average Perceptron）算法的词性标注器，将分词后的句子中每个词语赋予一个词性，并基于条件随机场（Conditional Random Field, CRF）模型，通过对已经标注好的命名实体语料进行学习和总结，建立命名实体识别模型，从而提取文本中的命名实体信息。同时基于转移的依存句法分析方法，根据句子的依存关系进行分析，将句子中的每个词语看作一个节点，将它们之间的依存关系看作边，建立依存句法分析树，最后对句子中每个成分的语义角色进行识别。

3.TextRank算法的关键词提取

基于TextRank图算法的关键词提取算法是一种用于文本的无监督式关键词提取算法，其核心思想是基于PageRank算法，将文本中的单词或短语作为节点，通过计算它们之间的相似度构成权重矩阵，进而构建加权图，在图上运行TextRank算法获得节点的重要性排名，最后根据排名得出文本的关键词。相比传统的TF-IDF算法，TextRank在无需构造数据集训练的前提下，能够更好地利用文本元素之间的关系，具有更好的效果。

4.基于知识图谱的协同过滤推荐

小组根据学生的选课情况，将知识图谱和传统的协同过滤算法融合，抽取学生和课程作为实体，将实体嵌入学习，采用图嵌入算法将每个节点表示为一个低维度向量，以捕捉其在知识图谱中的语义信息，并利用知识图谱中的实体之间的语义关系，计算每个用户和物品的邻居节点，并计算它们之间的相似度。根据相似度和历史行为，预测用户对未评分物品的评分。根据预测评分排序，将评分最高的物品推荐给用户。基于知识图谱的协同过滤推荐算法结合了知识图谱的语义信息和协同过滤的邻域信息，能够更好地解决数据稀疏和冷启动等问题，提高推荐效果。

二、功能简介

本项目通过研究各类学习风格模型后，结合在线学习环境的多样化、自主化、个性化等新特征以及数据集中的数据条目，参考Felder-Silverman（FSLSM）模型基础上，最终建立包含信息感知、信息接受、信息加工、学习行为投入、学习态度、社会化交互、本课程学习能力、新课程学习能力八个维度的学习风格模型，对在线学习环境中的学生构建用户画像，并爬取MOOC获取数据集中提到的课程对应的信息以及学生对课程的评价，结合学生选课学习表等数据，抽取学生和课程作为实体，将实体和关系映射到低维向量空间，采用五折交叉验证，并根据数据量的大小对模型的超参数进行设置，设置完成后，对所有样本进行训练，对所有的负样本打分并排序，取前自定义数量的数据，得到基于知识图谱的协同过滤推荐结果。
在这里插入图片描述

学习风格模型

三、技术方案

（一）项目思路

本项目基于在线教学平台提取的样本数据进行关联分析和数据挖掘，建立学生学习行为分析模型，从信息感知维度、信息投入维度、信息加工维度、学习态度维度、信息接收维度、社会化交互、本课程学习能力、新课程学习能力八个维度分析用户行为，并爬取MOOC的课程简介信息和学生对课程的评价信息分别进行词云和情感分析，帮助学生抓住课程关键信息，得到其它学生对于课程的反馈，及时调整自己的课程选择，便于教师及时了解学生的学习习惯和特点，从而为教师提供优化教学方法的参考；同时可以帮助平台了解用户的学习偏好、兴趣和需求，优化课程质量，进而通过基于知识图谱的协同过滤推荐向用户推荐个性化的学习资源。
项目解决问题思路

（二）主要内容

1.数据预处理

当学生通过在线教育平台进行学习时，他们一系列学习行为会产生相对应的学习数据。当学生需要完成课程学习的需求时，会产生登录日志记录，在线时长记录，课程签到、课程互动、查看视频、课件，视频、课件的浏览进度，查看作业、提交作业，查看考试，提交考试等行为数据。通过对于数据集提供的行为指标来进行行为特征描述错误!未找到引用源。，可以帮助搭建行为特征指标体系以及分析学习行为过程。

2.学习行为分析模型构建

通过八个学习行为分析维度对模型进行构建：

（1）信息感知维度

基于帖子浏览次数post_views划分学生学习类型为直觉型或者感悟型的假设前提是：直觉型学生更倾向于通过快速地、准确地获取知识，而感悟型学生更倾向于通过深入地感受和理解知识。
如果一个学生浏览的帖子次数比较少，往往说明该学生能够快速地获取到所需的信息，这可能表明该学生更倾向于直觉型学习；反之，则可能表明该学生更倾向于感悟型学习，因为该类学生需要更多的时间去理解和探究知识。

（2）信息投入维度

基于完成作业次数job_num划分学生学习类型为高投入型或低投入型的假设前提是：高投入型学生通常会更加积极地参与到课程学习中，而低投入型学生可能更容易产生学习疲劳或失去兴趣。
如果一个学生完成的作业次数比较多，往往说明该学生非常认真地对待课程，并且致力于学习，这可能表明该学生更倾向于高投入型学习；反之，则可能表明该学生更倾向于低投入型学习，因为该学生可能没有足够的意愿和动力来参与到课程学习中。

（3）信息加工维度

基于提前提交作业时间time_before_ddl划分学生学习类型为活跃型或沉思型的假设前提是：活跃型学生更倾向于通过快速地完成任务来获取成就感，而沉思型学生更倾向于通过深入思考和理解问题来获得知识。
如果一个学生能够提前完成作业，往往说明该学生非常努力地投入到学习中，并且具备一定的时间管理能力，提前提交作业的时间较长，这可能表明该学生更倾向于活跃型学习；反之，则可能表明该学生更倾向于沉思型学习，因为该学生需要更多的时间去深入思考和理解问题，也许会临近截止时间再提交作业，提前提交作业的时间短。

（4）学习态度维度

基于完成作业耗时consume_time划分学生学习类型为依赖型或独立型的假设前提是：依赖型学生更倾向于寻求他人的帮助和支持，而独立型学生更倾向于自主学习和解决问题。
如果一个学生完成作业的时间较长，往往说明该学生需要花费更多的时间来理解问题、获取知识或解决困难。这可能表明该学生更倾向于依赖型学习，因为该学生需要寻求他人的帮助和支持来解决问题。反之，则可能表明该学生更倾向于独立型学习，因为该学生更擅长自主学习和解决问题。

（5）信息接收维度

基于接收处理信息耗时receive_time划分学生学习类型为积极型或拖延型的假设前提是：积极型学生更倾向于快速地获取、理解和应用知识，而拖延型学生更倾向于拖延并在最后时刻完成任务。
如果一个学生在学习过程中能够很快地接收和处理信息，往往说明该学生具备较高的信息处理能力和学习效率，这可能表明该学生更倾向于积极型学习，因为该学生能够快速地获取、理解和应用知识；反之，则可能表明该学生更倾向于拖延型学习，因为该学生需要更长的时间来接收和处理信息，从而导致任务不能及时完成。

（6）社会化交互

从社会化交互维度，学生可以分为社交型、中间型和独处型。为了区分三种类型，使用的行为条目包括：发帖数，访问讨论区的次数，回帖数，阅读的帖子数，帖子被回复的数量，帖子被阅读的数量，查看自己作业的次数。
社交型的学生喜欢与他人交流，而独处型的学生偏爱独处。因而，社交型的学生在讨论区中比较活跃，喜欢通过发帖、回帖等方式与他人交流沟通。同时，社交型的学生的人际关系比较好，当他们发帖时，也会有较多的同伴回复或查看帖子。反之，独处型的学生在讨论区的活跃度不如社交型，他们倾向于关注自己的课业情况。中间型介于两者之间。

（7）本课程学习能力

进行本课程学习能力预测前，我们首先要对该课程的难度值进行评估，通过多模型对比的方式，选择最优模型，得到课程的平均难度，根据评估课程及课程中每个小节对学生的区分度和难易度，评估出学生的学习能力参数。
采用普通二乘法的线性回归方法，根据学生平时的表现来预测学生最终的课程成绩，将预测结果作为该学生本课程学习能力。模型构造、拟合以及检验步骤如图所示：
课程学习能力预测流程图

（8）新课程学习能力

进行跨课程学习能力预测时，若一名学生选择的课程与他之间学过的课程存在一定相似度时，这时可以通过课程之间的相似度预估出学生在新课程中大概的能力水平。
不同的课程之间可能存在着相关的联系，例如知识体系、课程难度等方面。基于网络上的课程的相关说明、课程开课院系以及所属专业、信息，计算不同课程说明的文本的余弦相似度，并把该相似度作为这两门课程之间的相似度，相似度与学生课程成绩的乘积作为该学生该课程学习能力的预测。由于不同课程的知识不可能完全相同，所以预测结果知识对学生新课程最初的学习能力的预估，即在没有任何新课程学习经历的情况下，学生拥有的课程学习能力。课程相似度的计算过程如下图所示：

课程相似度计算流程图