机器学习算法粗概笔记
数据预处理算法
基本处理
1.归一化:0-1之间
2.标准化:均值为0,方差为1
3.异常点去除:一般与均值的差值大于2倍标准差的数据点
4.缩放:也是一种归一化,对于极大值或者极小值不对称分布的特征施加转换,如:对数log缩放
滤波
1.均值滤波
2.中值滤波
3.一阶滞后滤波
4.卡尔曼滤波
特征提取算法
1.正交信号校正(OCS)
主要用于近红外光谱矩阵的预处理,其基本思想是:利用数学上正交的办法,将原始光谱矩阵 X 中与待测品质 Y 不相关的部分信息滤除,即X 中被滤除的信息是与待测品质 Y 在数学上正交的。具体实现步骤可参考此链接
2.连续投影算法(SPA)
3.小波变换(WT)
小波变换(wavelet transform)的通俗解释(一)
4.经典模态分解(EMD)
经验模式分解(EMD)——简介及Matlab工具箱安装
5.黄变换(HHT)
希尔伯特黄变换,主要是经验模式分解+希尔伯特谱分析两部分,目的是获得信号中具有实际物理意义的瞬时频率分量,进而实现高分辨率的时频分析。
详细的解释和示例: 信号处理:希尔伯特-黄变换
监督学习建模算法
基本上所有分类方法均可以用于回归
分类算法:
- 感知机(Perceptron): 决策函数:sign(W*X+b);>0为1类,<0为-1类
- 逻辑回归(LogisticRegression):
- 随机梯度下降(Stochastic Gradient Descent)
- K-近邻(KNN)
- 支持向量机(SVM)
- 决策树(DecisionTreeClassifier)
- 朴素贝叶斯(Naive Bayes)
- 集成学习(bagging、boosting):bagging: 随机森林(RandomForest); boosting: Adaboost、GBDT、XGBoost
- 人工神经网络(ANN):BP网络
- 线性判别分析(LDA):有监督降维
回归算法:
- 多元线性回归(MLR):y = W*X+b; w,b由最小二乘法求得
- 偏最小二乘法(PLS): yi = W*X+b;偏最小二乘回归≈多元线性回归分析+典型相关分析+主成分分析;基于因变量为多个,自变量为多个。先同时求二者的主成分,使两个主成分的相关性达到最大,然后求各个因变量与自变量的主成分之间的回归方程,再反推回原变量间的回归方程。
- 岭回归(Ridge Regression)
- 逐步回归(Step Regression)
非监督学习建模算法
- K-均值(聚类)
- 高斯混合模型GMM(聚类)
- 主成分分析PCA(降维)
- 核主成分分析K-PCA
- 局部保持投影LPP(降维)
- 流型学习 Manifold Learning
- 独立成分分析ICA
参数优化算法
- 梯度下降(Gradient Descent)
- 牛顿法和拟牛顿法(Newton’s method & Quasi-Newton
Methods)
拉格朗日乘数法( Lagrange Multiplier Method)
粒子群算法(PSO)
遗传算法(GA)