机器学习笔记

1.泛读书 《机器学习之路》 github地址:https://github.com/bbfamily/abu

运用到的工具:numpy 快速操作结构数组 pandas 数据分析处理工具 matplotlib 画图 sklearn 

算法

非参数化算法 KNN

调节K值分类

kd-tree 数据结构 是一种平衡二叉树 算法介绍:https://leileiluoluo.com/posts/kdtree-algorithm-and-implementation.html

https://www.cnblogs.com/lanying/p/4035105.html

1有监督机器学习

2无监督机器学习

3强化学习:机器在环境中学习到策略,按策略选择一个动作,让对应的回报最大。

 

数据预处理

均值化和归一化:使满足均值为0,方差相似;移到0点称为归一化,将数据缩至指定范围为归一化

1.z-score标准化:x_{i}=\frac{x_{i}-mean(X)}{std(X)},将数据集缩进(0,1)范围叫做概率归一化。基本可用于有outlier。适用于数据存在异常值和较多噪音

2.离差归一化 x^{*}=\frac{x-min}{max-min},对outlier非常敏感

交叉熵函数  y=-\frac{1}{n}\sum [ylna+(1-y)ln(1-a)]

 

训练梯度计算原理x_{t+1}=x_{t}-ak_{t} k为斜率,即求导的梯度

1.特征工程

机器学习中评估特征的方法 增加特征维度

解决过拟合的一种方法->在惩罚函数中增加正则化参数来控制分类边界。L2正则化 L1正则化

2.交叉验证

N-fold cross validation

GridSearchCV 一种最优参数搜索方法,暴力搜索所有参数组合

3.分类评估指标

准确率 精确率 召回率 F1分数

ROC曲线 纵坐标为召回率,横坐标为错误判断为正样本占全部的比率

AUC指标 估计模型正样本预测的可信程度

4.回归模型

scikit-learn中 KNC -> k近邻分类 KNR k近邻回归

回归中评价指标 

1.均方差

2.均方差根

3.r方 SSE=\sum(y_{i}-y_{pred})^{2}     SST=\sum(y_{i}-y_{mean})^{2}  r^{2}=1SSE/SST  ymean为真实均值

决策树(非线性模型):不断选择使信息量下降最快的特征作为节点建立树模型。

基于gini(基尼杂质) 或entropy(信息减少量)

信息熵函数:表示数据集中信息量的大小。

 H(x)=-\sum P(x_{i})log_{2}P(x_{i})  P(xi):时间出现的概率

模型融合 孔多塞陪审团定理 三种融合方式:(为了保证个体差异,且用好方法融合个体差异)

  • bagging 融合相同模型

使用训练集的随机子集,而不运用所有训练集。

  • boosting 融合相同模型  生成模型样本序列

随机采样集合

模型融合

1.Ada-Boosting

对各样本的关注程度不同,更关注之前的错误样本

2.Gradient-Boosting

序列的后续样本直接预测之前模型的预测值与真实值的差值。用于决策树:GBDT 梯度增强决策树。

  • stacking 融合不同模型

可通过 加权 (!!)构建一个新模型融合多个模型个体,新模型一般为线性的

 

深度学习

深度学习库:

caffe:支持shell脚本和配置文件  适合cnn   caffe2!!

github:https://github.com/BVLC/caffe

中文文档:百度云盘链接:http://pan.baidu.com/s/1qY8njly%20密码:0tqj 
caffe2 
caffe2 教程入门(python版)

英文文档:http://caffe.berkelevison.org

社区:http://www.caffecn.cn/

 

tensorflow

github:https://github.com/tensorflow/tensorflow

中文文档:http://www.tensorfly.cn/tfdoc/how_tos/overview.html

社区:http://www.tensorfly.cn/

keras:学术界的宠儿

github:https://github.com/keras-team/keras

中文文档:https://keras-cn.readthedocs.io/en/latest/

TFLearn 模块设计较好 支持强化学习

github:https://github.com/tflearn/tflearn

英文文档:http://tflearn.org/getting_started/

另外的框架:MXnet,Theano,Torch

one-hot 编码

随机梯度下降 SGD 不再使用全部数据集计算梯度,抽取一批数据进行计算,对样本的抽取是随机的

SGD基础上,可以在 动量 momentum(历史的惯性)学习速率 批量数据 三方面改善  

RMSprop Adagrad基于这三个方面

过拟合:Dropout 去掉一部分的激活值,置为0,剩余的等比放大

L2正则化参数 L1正则化 在浅层模型中使用 在cost函数中添加正则化项 L2 权重的平方总和 L1绝对值
池化:尽可能无损的压缩平面 CNN 卷积 激活 池化

kaggle 

ImageNet 中的优秀CNN

1.2012年ALEXNET ILSVRC 模型

2.2014googlenet模型 inception结构

3.2014年VGG模型 卷积+深层 deep deep

微训练模型

时间序列模型: Embedding 生成时间薛烈的特征向量 将数据编码的序列转换成更合理的特征向量或特征向量序列

word2vec

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
校园失物招领系统管理系统按照操作主体分为管理员和用户。管理员的功能包括字典管理、论坛管理、公告信息管理、失物招领管理、失物认领管理、寻物启示管理、寻物认领管理、用户管理、管理员管理。用户的功能等。该系统采用了Mysql数据库,Java语言,Spring Boot框架等技术进行编程实现。 校园失物招领系统管理系统可以提高校园失物招领系统信息管理问题的解决效率,优化校园失物招领系统信息处理流程,保证校园失物招领系统信息数据的安全,它是一个非常可靠,非常安全的应用程序。 ,管理员权限操作的功能包括管理公告,管理校园失物招领系统信息,包括失物招领管理,培训管理,寻物启事管理,薪资管理等,可以管理公告。 失物招领管理界面,管理员在失物招领管理界面中可以对界面中显示,可以对失物招领信息的失物招领状态进行查看,可以添加新的失物招领信息等。寻物启事管理界面,管理员在寻物启事管理界面中查看寻物启事种类信息,寻物启事描述信息,新增寻物启事信息等。公告管理界面,管理员在公告管理界面中新增公告,可以删除公告。公告类型管理界面,管理员在公告类型管理界面查看公告的工作状态,可以对公告的数据进行导出,可以添加新公告的信息,可以编辑公告信息,删除公告信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值