常用机器学习算法
监督学习
分类
- 支持向量机
对线性和非线性数据的二分类问题都支持
但对于多分类问题效果不佳
主要用于 文本分类,图像识别,目标检测
- 人工神经网络
很强的非线性拟合能力,鲁棒性强
无法解释模型,需要大量训练样本
主要用于图像识别,自然语言处理,语音识别
- 逻辑回归
计算量小,训练快
容易欠拟合,精度不高,只能处理二分类
欺诈监测,疾病风险判断
- 决策树
很强的解释性,擅长处理缺失值样本
容易过拟合
基于规则的个人信用评估
- K近邻
用于线性和非线性数据的多分类
对异常值不敏感,计算量大,需要大量内存
用于人群分类
- 随机森林
不容易过拟合,大量缺失值也能有高准确率
主要用于图像识别,疾病风险判断
- 朴素贝叶斯
擅长小数据集,适合多分类任务
对输入格式敏感
情感分析,垃圾邮件监测预测
- 线性回归
实现简单,计算快
无法实现非线性数据的拟合
这个很多都能用到
- 回归树
不易过拟合
疾病风险判断
无监督学习
聚类
- K-Means聚类
算法简单快
但是需给出K的个数
- DBSCAN聚类
- Birch聚类
降维
- 主成分分析
简单易实现,但解释性较弱
- 因子分析
解释性强