机器学习:算法原理与编程实践
目录
[隐藏]机器学习的基础[编辑]
- p12 矩阵的3个用途:(1)解线性方程组;(2)利用二次型,将线性不可分的数据集映射到高维可分,如SVM;(3)变换,维度约简,如PCA
- NumPy
- Linalg
- p21 相似度:范数(距离)
- 多元统计:联合分布/边缘分布?
- 特征之间的相关性
- (样本向量与均值的)马氏(Mahalanobis)距离 --> 若协方差矩阵是I,则变成欧氏距离
- 特征值与特征向量:分解为旋转和某方向上的伸缩?
- 数据归一化:略
中文文本分类[编辑]
- 文本挖掘的7个领域:IR、聚类、分类、Web挖掘、信息抽取、NLP、概念提取
- 文本分类的流程:预处理、分词、统计词频,生成词向量空间(全局的?)、权重策略(TF-IDF)、分类、评价
- 太学术了,没办法增量运算
- p62 中文分词:基于概率图模型的条件随机场(CRF),Lafferty 2001
- jieba分词?
- Scikit-Learn库简介
- 召回率(recall)与准确率(precision),F-score
- 朴素Bayes
- kNN
决策树的发展[编辑]
- 最优特征子函数:ID3是信息增益、C4.5是信息增益率、CART是节点方差
- 信息熵测度*
- vs 关系数据库中索引的‘区分度’概念?
- ID3
- 缺点:倾向于选择特征值个数多的特征;过拟合问题
- C4.5
- Scikit-Learn与回归树(CART)
- CART使用最小剩余方差来判定回归树的最优化分(即期望划分之后的子树与样本点的误差方差最小),然后对子模型数据进行线性回归(模型树)
- 避免过拟合:剪枝
- E(子树误判次数) - Var(子树误判次数) > E(叶子误判次数)
推荐系统原理[编辑]
- 协同过滤
- User CF
- Item CF
- kMeans
- 聚类的改进:二分kMeans
- 首先将整体作为一个簇,选择能够最大限度降低聚类代价(误差平方和)的簇划分为二,直到>=k为止
- SVD:分解任意N*M矩阵
- 奇异值 vs 特征值
梯度寻优[编辑]
- 最优化与计算复杂性
- 凸集分离定理(超平面)
- Logistic梯度下降
- Logistic把(-∞,+∞)映射到(0,1)
- 随机梯度下降(SGD):随机样本抽取 + 动态步长取值
神经网络初步[编辑]
- BP
- 隐含层/传递函数:f(net) = 1/(1+exp(-net)) ——这不就是前面的Logistic函数嘛,为了归一化?
- (误差反馈)反向传播:略
- BP设计
- 隐含层数
- 问题:网络设计复杂、收敛慢、容易陷入局部最优(=> 动量因子)
- SOM
- 只有2层,输入层与输出层之间1:N连接
- 学习率 ?
- 聚类半径
- Boltzmann机*
- 模拟退火应用到BP?
- Boltzmann/Gibbs分布
- 统计力学中的表述形式:F(state)∝exp(-E/kT)
- 降温策略
预测的技术与哲学[编辑]
- 线性系统的预测
- 最小二乘
- 正规方程组法
- RBF
- 1985,Powell提出多变量插值的RBF法(拟合非线性函数,无须增加高次项)
- 前馈网络,无BP的误差反馈权值更新,学习速度比BP快得多,并且能够避免局部极小(层与层之间是N:N全连接???)
- 岭回归
- 随机变量存在多重共线性?
- A(k) = (X'X + kI)^-1 X' Y, 这里X'是X的转置
- ** 岭迹分析
- k值的判定:最小二乘是否合理?
- *预测的哲学(周易八卦阴阳两仪的部分感觉作者在扯淡)
- 周期3意味着混沌?
- Li-Yorke定理
- 求导后的Logistic映射:X_n+1 = k * X_n * (1-X_n)
- Logistic中的吸引子
- 三生万物 p259
万能分类器:SVM[编辑]
- 数学推导
- * Vapnik和Chervonenkis的VC维
- 结构风险最优(SRM原则)
- SVM的最佳分类超平面(这个感觉其实没多大用?)
- SVM求解过程:拉格朗日乘子法 p275-
- *** KKT条件与对偶变换
- KKT:指在满足Slater条件下(保证鞍点存在),一个非线性规划有最优解的充要条件
- *** KKT条件与对偶变换
- 映射到高维空间
- 增加维度:可用x_i和x_j的乘积表示...
- 降低计算开销:核函数法
- RBF的Gauss核
- *** 离群点(噪声?)的松弛变量
- *** SMO
人脸识别中的机器学习[编辑]
- 人脸检测
- Haar级联
- LBP级联
- AdaBoost
- 人脸识别
- PCA原理
- 特征脸
认知计算与深度学习[编辑]
- DL已经发展为一套人工认知算法体系:多层感知器、CNN(LeNet)、RNN、LSTM网络、稀疏编码器、堆叠的自动编码器、深度置信网络、混合Monte Carlo抽样、压缩的自动编码器、RNN-RBM网络
- 多层感知器
- Softmax回归类*
- ** 正则化方法:
- 提前终止
- L1/L2
- *** 卷积神经网络(CNN)
- Theano与GPU计算
概率图模型与词性标注[编辑]
- Markov过程
- Bayes网
- HMM
- 词性标注系统