机器学习（1）——方法、困难与挑战、学习过程

最新推荐文章于 2024-06-30 01:32:34 发布

Allure_07

最新推荐文章于 2024-06-30 01:32:34 发布

阅读量456

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Allure_07/article/details/104788834

版权

5 篇文章 0 订阅

订阅专栏

有监督学习（supervised learning)

无监督学习（unsupervised learning）

半监督学习（Semi-supervised learning）

增强学习（Reinforcement learning）

多任务学习（Multi-task learning）

困难

挑战

数据预处理：数据清洗，数据集成，数据采样
- 数据清洗：对各种脏数据进行对应方式的处理，得到标准、干净、连续的数据，提供给数据统计、数据挖掘等使用
  - 数据的完整性，数据的唯一性，数据的合法性，数据的权威性，数据的一致性
- 数据采样：数据不平衡
  - 数据集的类别分布不均，不能反映模型的好坏
  - 解决方法：过采样，欠采样
- 数据集拆分：训练数据集，验证数据集，测试数据集
  - 常用方法：留出法，K-折交叉验证法（K值通常为10）
特征工程：特征编码，特征选择，特征降维，规范化
- 特征编码：one-hot编码，语义编码
- 特征选择方法：过滤法，包裹法，嵌入法
- 特征降维：主成分分析（PCA），线性判别分析（LDA）
- 规范化方法：标准化，区间缩放，归一化
数据建模：回归问题，分类问题，聚类问题，其他问题
- 分类问题：决策树，贝叶斯，支持向量机，逻辑回归，集成学习
- 回归问题：线性回归，岭回归，Lasso回归
- 聚类问题：K-means，高斯混合聚类，密度聚类，层次聚类，谱聚类
- 其他问题：隐马尔可夫模型，LDA主题模型，条件随机场，神经网络，深度学习
结果评估：拟合度量，查准率，查全率，F1值，PR曲线，ROC曲线

关注

专栏目录