《机器学习：算法原理与编程实践》的读书笔记：SMO部分最难，大部分代码基于Scikit-Learn，决策树其实用处不大

最新推荐文章于 2024-08-11 02:26:02 发布

志_祥

最新推荐文章于 2024-08-11 02:26:02 发布

阅读量2.7k

点赞数

分类专栏：读书笔记文章标签：机器学习算法 Scikit-Learn Theano SMO

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cteng/article/details/50276351

版权

读书笔记专栏收录该内容

275 篇文章 0 订阅

订阅专栏

机器学习：算法原理与编程实践

目录

[隐藏]

机器学习的基础[编辑]

p12 矩阵的3个用途：（1）解线性方程组；（2）利用二次型，将线性不可分的数据集映射到高维可分，如SVM；（3）变换，维度约简，如PCA
NumPy
1. Linalg
p21 相似度：范数（距离）
多元统计：联合分布/边缘分布？
特征之间的相关性
1. （样本向量与均值的）马氏（Mahalanobis）距离 --> 若协方差矩阵是I，则变成欧氏距离
特征值与特征向量：分解为旋转和某方向上的伸缩？
数据归一化：略

中文文本分类[编辑]

文本挖掘的7个领域：IR、聚类、分类、Web挖掘、信息抽取、NLP、概念提取
文本分类的流程：预处理、分词、统计词频，生成词向量空间（全局的？）、权重策略（TF-IDF）、分类、评价
1. 太学术了，没办法增量运算
p62 中文分词：基于概率图模型的条件随机场（CRF），Lafferty 2001
jieba分词？
Scikit-Learn库简介
1. 召回率（recall）与准确率（precision），F-score
朴素Bayes
kNN

决策树的发展[编辑]

最优特征子函数：ID3是信息增益、C4.5是信息增益率、CART是节点方差
信息熵测度*
1. vs 关系数据库中索引的‘区分度’概念？
ID3
1. 缺点：倾向于选择特征值个数多的特征；过拟合问题
C4.5
Scikit-Learn与回归树（CART）
1. CART使用最小剩余方差来判定回归树的最优化分（即期望划分之后的子树与样本点的误差方差最小），然后对子模型数据进行线性回归（模型树）
2. 避免过拟合：剪枝
  1. E(子树误判次数) - Var(子树误判次数) > E(叶子误判次数)

推荐系统原理[编辑]

协同过滤
1. User CF
2. Item CF
kMeans
聚类的改进：二分kMeans
1. 首先将整体作为一个簇，选择能够最大限度降低聚类代价（误差平方和）的簇划分为二，直到>=k为止
SVD：分解任意N*M矩阵
1. 奇异值 vs 特征值

梯度寻优[编辑]

最优化与计算复杂性
1. 凸集分离定理（超平面）
Logistic梯度下降
1. Logistic把(-∞,+∞)映射到(0,1)
2. 随机梯度下降（SGD）：随机样本抽取 + 动态步长取值

神经网络初步[编辑]

BP
1. 隐含层/传递函数：f(net) = 1/(1+exp(-net)) ——这不就是前面的Logistic函数嘛，为了归一化？
2. （误差反馈）反向传播：略
3. BP设计
  1. 隐含层数
4. 问题：网络设计复杂、收敛慢、容易陷入局部最优（=> 动量因子）
SOM
1. 只有2层，输入层与输出层之间1：N连接
2. 学习率 ?
3. 聚类半径
Boltzmann机*
1. 模拟退火应用到BP？
2. Boltzmann/Gibbs分布
  1. 统计力学中的表述形式：F(state)∝exp(-E/kT)
3. 降温策略

预测的技术与哲学[编辑]

线性系统的预测
1. 最小二乘
2. 正规方程组法
RBF
1. 1985，Powell提出多变量插值的RBF法（拟合非线性函数，无须增加高次项）
2. 前馈网络，无BP的误差反馈权值更新，学习速度比BP快得多，并且能够避免局部极小（层与层之间是N：N全连接？？？）
岭回归
1. 随机变量存在多重共线性？
2. A(k) = (X'X + kI)^-1 X' Y, 这里X'是X的转置
  1. ** 岭迹分析
  2. k值的判定：最小二乘是否合理？
*预测的哲学（周易八卦阴阳两仪的部分感觉作者在扯淡）
1. 周期3意味着混沌？
2. Li-Yorke定理
3. 求导后的Logistic映射：X_n+1 = k * X_n * (1-X_n)
4. Logistic中的吸引子
5. 三生万物 p259

万能分类器：SVM[编辑]

数学推导
1. * Vapnik和Chervonenkis的VC维
2. 结构风险最优（SRM原则）
3. SVM的最佳分类超平面（这个感觉其实没多大用？）
4. SVM求解过程：拉格朗日乘子法 p275-
  1. *** KKT条件与对偶变换
    1. KKT：指在满足Slater条件下（保证鞍点存在），一个非线性规划有最优解的充要条件
5. 映射到高维空间
  1. 增加维度：可用x_i和x_j的乘积表示...
  2. 降低计算开销：核函数法
    1. RBF的Gauss核
6. *** 离群点（噪声？）的松弛变量
*** SMO

人脸识别中的机器学习[编辑]

人脸检测
1. Haar级联
2. LBP级联
AdaBoost
人脸识别
1. PCA原理
2. 特征脸

认知计算与深度学习[编辑]

DL已经发展为一套人工认知算法体系：多层感知器、CNN（LeNet）、RNN、LSTM网络、稀疏编码器、堆叠的自动编码器、深度置信网络、混合Monte Carlo抽样、压缩的自动编码器、RNN-RBM网络
多层感知器
1. Softmax回归类*
2. ** 正则化方法：
  1. 提前终止
  2. L1/L2
*** 卷积神经网络（CNN）
Theano与GPU计算

概率图模型与词性标注[编辑]

Markov过程
Bayes网
HMM
词性标注系统

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。