机器学习任务类型主要分为两大类:
• 监督学习(Supervised Learning)
– 分类 (Classification)
– 回归 (Regression)
– 排序 (Ranking)
• 非监督学习 (Unsupervised Learning)
– 聚类 (Clustering)
– 降维 (Dimensionality Reduction)
– 概率密度估计 (density estimation)
监督学习:学习到一个x->y的映射f,从而对新输入的x进行预测 f (x) 。数据特征分为两大类即输入特征和预测特征。
分类中的预测采用最大后验估计,即选择概率最大的。
非监督学习:发现数据中的“有意义的模式”,亦被称为知识发现。
• 降维是一种将原高维空间中的数据点映射到低维度空间的技术。其本质是学习一个映射函数 f:x->x',其中x是原始数据点的表达, x'是数据点映射后的低维向量表达。
• 在很多算法中,降维算法为数据预处理的一部分,如主成分分析( PCA)。
过拟合:在训练集上表现优越,在测试集上表现差劲,推广性差
正则项:其作用是防止过拟合,即增加约束条件,方程原型其实是拉格朗日乘数法
L0正则化的值是模型参数中非零参数的个数。
L1正则化表示各个参数绝对值之和。
L2正则化标识各个参数的平方的和的开方值
K-折交叉验证:将训练数据分成容量大致相等的K份,每次留出第k份数据作为验证数据,其余K-1份数据用于训练,根据预测数据计算出误差,共有k份结果,然后加和求平均。
NumPy:矩阵计算;
SciPy:数学工具,比如求导;
Pandas:数据结构和数据分析,类似于SQL,
主要有 2 种重要数据类型:Series(一维序列),DataFrame(二维表,机器学习数据的常用数据结构)
Matplotlib/Seaborn:2D绘图工具
Scikit-Learn:机器学习方法。
• 基本功能有六个部分:分类、回归、聚类、数据降维、模型选择、数据预处理。
• 对于具体的机器学习问题,通常可以分为三个步骤
– 数据准备与预处理( Preprocessing 、 Dimensionality reduction )
– 模型选择与训练( Classification 、 Regression 、 Clustering )
– 模型验证与参数调优 (Model Selection)