机器学习笔记

最新推荐文章于 2024-01-22 19:13:26 发布

崴喵技术

最新推荐文章于 2024-01-22 19:13:26 发布

阅读量203

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_25786109/article/details/82254002

版权

1.泛读书《机器学习之路》 github地址：https://github.com/bbfamily/abu

运用到的工具：numpy 快速操作结构数组 pandas 数据分析处理工具 matplotlib 画图 sklearn

算法

非参数化算法 KNN

调节K值分类

kd-tree 数据结构是一种平衡二叉树算法介绍：https://leileiluoluo.com/posts/kdtree-algorithm-and-implementation.html

https://www.cnblogs.com/lanying/p/4035105.html

1有监督机器学习

2无监督机器学习

3强化学习：机器在环境中学习到策略，按策略选择一个动作，让对应的回报最大。

数据预处理

均值化和归一化：使满足均值为0，方差相似；移到0点称为归一化，将数据缩至指定范围为归一化

1.z-score标准化： $x_{i}=\frac{x_{i}-mean(X)}{std(X)}$ ,将数据集缩进（0,1）范围叫做概率归一化。基本可用于有outlier。适用于数据存在异常值和较多噪音

2.离差归一化 $x^{*}=\frac{x-min}{max-min}$ ，对outlier非常敏感

交叉熵函数 $y=-\frac{1}{n}\sum [ylna+(1-y)ln(1-a)]$

训练梯度计算原理 $x_{t+1}=x_{t}-ak_{t}$ k为斜率，即求导的梯度

1.特征工程

机器学习中评估特征的方法增加特征维度

解决过拟合的一种方法->在惩罚函数中增加正则化参数来控制分类边界。L2正则化 L1正则化

2.交叉验证

N-fold cross validation

GridSearchCV 一种最优参数搜索方法，暴力搜索所有参数组合

3.分类评估指标

准确率精确率召回率 F1分数

ROC曲线纵坐标为召回率，横坐标为错误判断为正样本占全部的比率

AUC指标估计模型正样本预测的可信程度

4.回归模型

scikit-learn中 KNC -> k近邻分类 KNR k近邻回归

回归中评价指标

1.均方差

2.均方差根

3.r方 $SSE=\sum(y_{i}-y_{pred})^{2}$ $SST=\sum(y_{i}-y_{mean})^{2}$ $r^{2}=1SSE/SST$ ymean为真实均值

决策树（非线性模型）：不断选择使信息量下降最快的特征作为节点建立树模型。

基于gini（基尼杂质）或entropy（信息减少量）

信息熵函数:表示数据集中信息量的大小。

$H(x)=-\sum P(x_{i})log_{2}P(x_{i})$ P(xi):时间出现的概率

模型融合孔多塞陪审团定理三种融合方式：（为了保证个体差异，且用好方法融合个体差异）

bagging 融合相同模型

使用训练集的随机子集，而不运用所有训练集。

boosting 融合相同模型生成模型样本序列

随机采样集合

模型融合

1.Ada-Boosting

对各样本的关注程度不同，更关注之前的错误样本

2.Gradient-Boosting

序列的后续样本直接预测之前模型的预测值与真实值的差值。用于决策树：GBDT 梯度增强决策树。

stacking 融合不同模型

可通过加权（！！）构建一个新模型融合多个模型个体，新模型一般为线性的

深度学习

深度学习库：

caffe：支持shell脚本和配置文件适合cnn caffe2！！

github：https://github.com/BVLC/caffe

中文文档：百度云盘链接：http://pan.baidu.com/s/1qY8njly%20密码：0tqj
caffe2
caffe2 教程入门（python版）

英文文档：http://caffe.berkelevison.org

社区：http://www.caffecn.cn/

tensorflow

github:https://github.com/tensorflow/tensorflow

中文文档：http://www.tensorfly.cn/tfdoc/how_tos/overview.html

社区：http://www.tensorfly.cn/

keras：学术界的宠儿

github:https://github.com/keras-team/keras

中文文档：https://keras-cn.readthedocs.io/en/latest/

TFLearn 模块设计较好支持强化学习

github：https://github.com/tflearn/tflearn

英文文档：http://tflearn.org/getting_started/

另外的框架：MXnet，Theano，Torch

one-hot 编码

随机梯度下降 SGD 不再使用全部数据集计算梯度，抽取一批数据进行计算，对样本的抽取是随机的

SGD基础上，可以在动量 momentum（历史的惯性）学习速率批量数据三方面改善

RMSprop Adagrad基于这三个方面

过拟合：Dropout 去掉一部分的激活值，置为0，剩余的等比放大

L2正则化参数 L1正则化在浅层模型中使用在cost函数中添加正则化项 L2 权重的平方总和 L1绝对值
池化：尽可能无损的压缩平面 CNN 卷积激活池化

kaggle

ImageNet 中的优秀CNN

1.2012年ALEXNET ILSVRC 模型

2.2014googlenet模型 inception结构

3.2014年VGG模型卷积+深层 deep deep

微训练模型

时间序列模型： Embedding 生成时间薛烈的特征向量将数据编码的序列转换成更合理的特征向量或特征向量序列

word2vec

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记

1.泛读书《机器学习之路》 github地址：https://github.com/bbfamily/abu运用到的工具：numpy 快速操作结构数组 pandas 数据分析处理工具 matplotlib 画图 sklearn 算法非参数化算法 KNN调节K值分类kd-tree 数据结构是一种平衡二叉树算法介绍：https://leileiluoluo.com/posts...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。