机器学习2025-大作业考试说明

IT从业者张某某

已于 2025-04-21 12:11:12 修改

阅读量707

点赞数 17

分类专栏：机器学习2025 文章标签：机器学习课程设计人工智能

于 2025-04-21 10:53:48 首次发布

本文链接：https://blog.csdn.net/m0_38139250/article/details/147383198

版权

机器学习2025 专栏收录该内容

43 篇文章

订阅专栏

机器学习考试方式说明

一、开课情况

考查课 082116406
70人，0864221，1-14单双周理论学时28 实验学时14
上课地点：周三 1-2节（10#B206）周四1-2节（10#A210/212）

二、考试方式

本学期的课程围绕机器学习的相关内容，因此采用以“机器学习”为主题的大作业作为本学期考核。

1）选题说明

大作业分为二个主题，学生任选其一：

主题一：XX领域机器学习算法应用与工程实践，如：

1.电商领域的商品推荐与用户划分实践。
2.教育领域的考研成绩预测。

主题二：竞赛类或自拟机器学习相关的题目

该类问题，不限制具体流程，流程合理，有现实意义，符合题目要求即可，如：
1.基于大模型接口的文档评分实现。
2.XX数据的时序分析。
3.CV或NLP方向的相关题目

2）大作业报告要求：

下文以选题一方向要求：

报告内容涵盖：
1.确定业务领域，并对业务领域进行说明。
2.技术算法说明，包括采用的算法和语言工具，以及同类型数据集的采用的算法（参考5篇以上的博客或文献）。
3.数据获取：体现数据的获取过程，并对数据集进行详细说明，要求数据集与业务领域吻合度较高。
4.数据处理：包含数据探索，数据预处理，特征工程等步骤
5.算法选择：依据数据集和业务，选择合适的算法，包括分类，回归，聚类，关联，图像分类，图像检测，文本翻译等。
6.模型训练：进行多个模型的训练，并生成对应的模型。
7.模型评估：选择合适的评估函数评估模型，并对结果进行分析。
8.模型优化：对比模型效果，结合集成学习，算法融合等优化模型。
9.模型保存与加载：保存模型参数，并加载模型进行测试
10.基于Flask或是其它框架，完成模型接口服务实现。
11.个人总结
12.提供完整的checklist。可参考做机器学习项目的checklist

下文以选题二方向要求：

报告内容涵盖：
1.选题概述
2.技术选型
3.数据介绍
4.功能实现
5.效果展示
6.部署文档
7.个人总结

3）报告格式要求：

（1）正文，标题参考报告模板。
（2）每个图要有标号和图名（例：图1 XXX流程图），标号和图名在图下标识。每个表要有标号和表名（例：表1 XX表），标号和表名在表上方标注。

三、考试说明

第14周为考试审核周，共留两周时间给学生完成。大作业的最终评判将参考以下标准：
在这里插入图片描述

四、资料保存方式

每人上交一份电子档，同时上交一份打印档。

以下为完善的机器学习大作业考核标准（含拓展说明）：

考试说明拓展说明

1. 业务领域确定（10%）

要求：选择金融、医疗、电商、教育等具体领域，说明行业痛点与机器学习应用价值
示例：电商用户流失预测、医疗影像分类、金融风控评分
拓展：需明确领域特征（如数据敏感性、时效性要求）与项目目标关联性

2. 技术算法说明（15%）

核心要求：
- 语言工具：Python（sklearn/pytorch）+ Jupyter Notebook
- 算法说明需包含：经典算法（如逻辑回归、随机森林）与前沿方法（如LightGBM、Transformer）对比
- 文献支撑：引用近3年顶会论文（CVPR/ICML等）或CSDN/Medium优质技术博客
拓展：需制作算法对比表格，说明各方法适用场景

3. 数据获取（10%）

数据要求：
- 来源标注：Kaggle/UCI等开放平台或自制爬虫（需附代码），也可以自己收集数据（如学校的学生考研数据）
- 数据量级：结构化数据>1000条，非结构化数据>500条
- 字段说明：需包含数据字典（字段名、类型、业务含义）
重点检查：数据与业务场景的匹配度（如金融场景需含交易特征）

4. 数据处理（15%）

流程规范：
创新点：需包含可视化分析（如Seaborn绘制的特征分布热力图）
特征工程要充分体现，参考：https://blog.csdn.net/m0_38139250/article/details/136828851

5. 算法选择（10%）

决策矩阵：
数据类型问题类型推荐算法
小样本分类 SVM
高维度回归 Lasso
时序数据预测 LSTM

数据类型	问题类型	推荐算法
小样本	分类	SVM
高维度	回归	Lasso
时序数据	预测	LSTM

6. 模型训练（10%）

技术要求：
- 至少训练3种不同原理的模型
- 超参数设置需说明依据（网格搜索/贝叶斯优化）
- 保存训练日志（含loss曲线等可视化记录）
- 可视化训练日志
- 可参考：
- 机器学习-05-回归算法-python动画展示
- 机器学习-12-sklearn案例02-集成学习

7. 模型评估（10%）

评估体系：
- 分类：Accuracy+F1+ROC-AUC三角评估
- 回归：MAE+R²+可解释性分析
- 对比测试：在不同数据子集上的稳定性验证
- 可参考：
- 机器学习-07-分类回归和聚类算法评估函数及案例

8. 模型优化（10%）

进阶方法：
- 集成策略：Stacking融合（基模型需差异度>40%）
- 优化案例：XGBoost+早停机制+特征重要性筛选
- 效果验证：优化后指标提升需≥5%
- 可参考：
- 机器学习-12-sklearn案例02-集成学习
- 机器学习12-集成学习-案例

9. 模型部署（5%）

实现要求：
- 保存格式：.pkl或ONNX标准化格式
- 加载测试：需包含完整推理demo（输入输出样例）
- API规范：RESTful接口设计，POST请求示例
- 可参考：
- 机器学习-12-sklearn案例03-flask对外提供服务

10. 系统实现（5%）

技术栈：

# Flask示例核心代码
app = Flask(__name__)
@app.route('/predict', methods=['POST'])
def predict():
    data = request.json
    return jsonify(model.predict(data))