机器学习笔记
分类
- 按学习方式分类:
- 监督学习
- 无监督学习
- 半监督学习
- 强化学习
- 按是否能够动态学习分类:
- 批量学习
- 在线学习
- 按泛化类型分类:
- 基于实例学习
- 基于模型学习
术语
预处理 Preprocessing
特征缩放 Feature Scaling
标准化 Standardization
x ′ = x − X ‾ S x'=\frac{x-\overline{X}}{S} x′=Sx−X
Sklearn中的用法:
from sklearn.preprocessing import StandardScaler
StandardScaler().fit_transform()
最大-最小缩放 min-max Scaling
x ′ = x − m i n m a x − m i n x'=\frac{x-min}{max-min} x′=max−minx−min
Sklearn中的用法:
from sklearn.preprocessing import MinMaxScaler
MinMaxScaler().fit_transform()
归一化 Normalization
x ′ = x ∣ ∣ x ∣ ∣ x'=\frac{x}{||x||} x′=∣∣x∣∣x
from sklearn.preprocessing import Normalizer
Normalizer().fit_transform()
二值化
from sklearn.preprocessing import Binarizer
Binarizer(threshold=3).fit_transform()
处理文本数据
独热编码 OneHot Encode
Sklearn中的用法:
from sklearn.preprocessing import OneHotEncoder
OneHotEncoder().fit_transform()
文本标签转换数字
Sklearn中的用法:
from sklearn.preprocessing import LabelEncoder
LabelEncoder().fit_transform()
文本标签二值化
Sklearn中的用法:
from sklearn.preprocessing import LabelBinarizer
LabelBinarizer.fit_transform()
缺失值填充
Sklearn中的用法:
from sklearn.preprocessing import Imputer
Imputer().fit_transform()
自定义转换器
Sklearn中的用法:
from sklearn.base import BaseEstimator, TransformerMixin
常见算法
- 回归算法 Regression
- 线性回归 Linear Regression
- 逻辑回归 Logistic Regression(*常用于分类)
- Softmax 回归(*常用于分类)
- 决策树算法 Decision Tree
- 分类和回归树 CART
- ID3
- C4.5 & C5.0
- 贝叶斯算法 Bayesian
- 朴素贝叶斯
- 基于核的算法 Kernel-Based
- 支持向量机 Support Vector Machine,SVM
- 径向基函数 Radial Basis Function ,RBF
- 基于实例的学习算法 Instance-Based
- k-邻近 k-NN
- 集成学习算法 Ensemble
- Boosting
- Bagging
- AdaBoost
- 随机森林 Random Forest
- 聚类算法 Clustering
- K-均值 k-means
- 期望最大算法 Expectation Maximisation,EM
- 人工神经网络 Artificial Neural Network
- 感知机 Perceptron
- 反向传播算法 Back-Propagation
- 深度神经网络 DNN
- 卷积神经网络 CNN
- 循环神经网络 RNN
- 关联规则学习算法 Association Rule Learning
- Apriori
- FP-growth
- 降维算法
- 主成分分析 PCA
- 奇异值分解 SVD
- 线性判别分析 LDA
- 正则算法 Regularization
- 岭回归 Ridge Regression
- Lasso 回归
- 弹性网络 Elastic Net
- 优化算法 Optimization
- 梯度下降 Gradient Decent
- 随机梯度下降 Stochastic Gradient Decent
- 批量梯度下降 Batch Gradient Decent
- 小批量梯度下降 Mini-batch Gradient Decent
- 正规方程 Normal Equation
评估指标 Metrics
均方误差
Sklearn中的用法:
from sklearn.metrics import mean_squared_error