机器学习
编程方法论
这个作者很懒,什么都没留下…
展开
-
机器学习基础概念和度量指标
偏差-方差分解,数据集及其产生,混淆矩阵+F1;P-R+ROC曲线。原创 2020-05-06 15:06:22 · 228 阅读 · 0 评论 -
集成学习基础知识总结-Bagging-Boosting
bagging(随机森林)和boosting(关注偏差,adaboost,xgboost,GBDT)原创 2020-05-06 11:27:19 · 167 阅读 · 0 评论 -
聚类基础知识,看这一篇就足够了!
原型聚类:聚类结构能通过一组原型刻画。KMEANS+GMM.基于密度的聚类:DBSCAN.层次聚类:在不同层次上对数据集进行分类。从N到1。原创 2020-05-06 08:36:26 · 1171 阅读 · 0 评论 -
决策树知识总结+随机森林(两个随机)
决策树的生成过程,核心问题是属性如何选择,ID3的标准是最大化信息增益。ID4.5,最大化信息增益率。CART树是最小化基尼指数(衡量2个样本,其类别标记不一致的概率)。随机森林引入2个随机性(1.boostrap,样本随机,b.属性子集)原创 2020-05-05 22:59:15 · 2526 阅读 · 0 评论 -
支持向量机SVM知识梳理和在sklearn库中的应用
线性SVM=线性分类器+最大间隔间隔的形式化描述SVM通过最大化`M`来求解参数`W`和`b`的,目标函数如下拉格朗日乘数法,软间隔:加入容错量非线性SVM:特征空间。常用的核函数原创 2020-04-28 00:26:28 · 304 阅读 · 0 评论 -
循环神经网络
单层循环神经网络每一步的W,U,V都是一样的。S3=tanh(Uxt+WS2)递归的特点乘积的形式可以复用中间的结果序列很长的。。。。文章的单词可能很大。分块梯度。。。双向神经网络----更好地学习上下文信息,单方向一般只能学到序列的一半信息(因为另一半信息还没有输出)...原创 2019-07-23 12:33:13 · 150 阅读 · 0 评论 -
自动机器学习autoML
搜索空间需要提起定义原创 2019-07-23 21:07:54 · 225 阅读 · 0 评论 -
对抗生成网络
互补提升在min的时候,我是训练生成器G,使得目标函数变小,在max的时候,我是训练判别器D,使得目标函数变大。--当X时真实数据时,有一个分项,当我的输入Z是一个随机向量时,又有另外一个分项。假的图像要识别出来输入一维化之后,表达成内积的过程。卷积操作和反卷积操作是指size上的对应关系,两种变...原创 2019-07-23 18:10:42 · 541 阅读 · 0 评论 -
文本分类
http://zh.d2l.ai/chapter_computer-vision/rcnn.html原创 2019-07-23 16:20:41 · 135 阅读 · 0 评论 -
长的短期记忆网络
RNN中参数就是W,需要学到的东西很多,W过载,只能记住最近的信息。一个句子必不可少的操作就是分词,一直传递到最后,这就意味着最后的结果包含整个句子的信息。LSTM的最后一个输出值作为多层神经网络的输入。。。。CNN用于文本分类,需要进行一些妥协(因为一般的句子有时候长,有时候短,没法构造一个固定的图像,所以需要将输入...原创 2019-07-23 16:01:54 · 174 阅读 · 0 评论 -
卷积神经网络(Convolutional Neural Networks, CNN)调参
以往梯度的平方和。参数double用同样大小的框在不同尺寸的图像上进行裁剪。learning rate 比较大,会是的数据一直在某个高点上徘徊,进不到低点。。。...原创 2019-07-08 17:40:47 · 553 阅读 · 0 评论 -
典型卷积神经网络架构01
经过一个pooling后,某些信息会丢失,为了做出某些补偿,我需要提取出更多的特征(每一个卷积核就表示一个特征)(5×5-2×3×3)/25=0.28...原创 2019-07-07 21:54:46 · 514 阅读 · 0 评论 -
卷积神经网络中与dropout的相关问题
为什么dropout要用在全连接层?因为全连接层参数占全部参数数目的大部分,容易过拟合(当参数过多,样本过少时,会使得参数记住训练集中的所有样本,从而使得其在训练集上表现特别好。但在测试集中效果极差)为什么dropout有效?组合解释 每次dropout都相当于训练了一个子网络 最后的结果相当于子网络的组合---有集成学习的意思 动机解释:消除了神经元之间的依赖,增强泛化能...原创 2019-07-07 21:29:11 · 1635 阅读 · 0 评论 -
卷积神经网络(Convolutional Neural Networks, CNN)的特点
图形的特点:图像的区域性--即:图像中某一个特征只与某一个子区域有关系,与整个图像没关系 图像特征与位置无关--即:图像所包含的内容与内容位于图像中的位置无关,只要它出现在图像中就OK了。针对图像的以上特点,我们定义的卷积神经网络参数具有如下特点: 局部连接 全局共享 卷积核就是局部连接的参数。加权求和本质是卷积操作没啥区别。卷积核的参数P=边距(paddi...原创 2019-07-07 18:25:56 · 2351 阅读 · 0 评论 -
ROC、TPR
ROC用来确定最佳的分类阈值原创 2019-05-03 09:07:59 · 329 阅读 · 0 评论 -
机器学习笔记2
错误率(error rate):错误样本站样本总数的比例。误差(error):学习器的实际预测输出与样本真实输出之间的差异。训练误差(training error)/经验误差(empirical error):学习器在训练样本上的误差。泛化误差(generalization):模型在新样本上的误差.我们实现不知道新样本是什么,我们能做的是使经验误差最小。过拟合(overf...原创 2018-08-11 11:41:33 · 162 阅读 · 0 评论