![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
zhangztSky
这个作者很懒,什么都没留下…
展开
-
batch梯度下降法、mini-batch、SGD
首先,如果训练集较小,直接使用batch梯度下降法,样本集较小就没必要使用mini-batch梯度下降法,你可以快速处理整个训练集,所以使用batch梯度下降法也很好,这里的少是说小于2000个样本,这样比较适合使用batch梯度下降法。不然,样本数目较大的话,一般的mini-batch大小为64到512,考虑到电脑内存设置和使用的方式,如果mini-batch大小是2的次方,代码会运行地快一些,64就是2的6次方,以此类推,128是2的7次方,256是2的8次方,512是2的9次方。所以我经常把mini-原创 2020-07-25 13:26:33 · 317 阅读 · 0 评论 -
深度学习调参之dropout
什么是dropoutdropout被正式地作为一种正则化的替代形式,L2正则化对不同权重的衰减是不同的,它取决于倍增的激活函数的大小。dropout的功能类似于正则化,与L2正则化不同的是,被应用的方式不同,dropout也会有所不同,甚至更适用于不同的输入范围。注意keep-prob的值是1,意味着保留所有单元,并且不在这一层使用dropout,对于有可能出现过拟合,且含有诸多参数的层,我们可以把keep-prob设置成比较小的值,以便应用更强大的dropout,有点像在处理正则化的正则化参数,我们原创 2020-07-25 09:32:54 · 2907 阅读 · 0 评论 -
为什么感知机不能表示异或?
为什么感知机不能表示异或。1.感知机的数学定义感知机到底是什么呢?首先来看一下他的数学定义:假设输入空间(即样本的特征空间)为X⊆Rn,输出空间为y={+1,−1}。输入位x⊂X表示样本的特征向量,对应于输入空间(特征空间)的点;输出y⊂Y表示样本类别。由输入空间到输出空间对应的函数关系如下:f(x)=sign(w⋅x)+b此函数被称为感知机。其中,w,与b为感知机的模型参数,w⊂Rn,为权重(weight)或权值向量(weight vector),b⊂R为偏置(bias),w⋅x表示w与x的内原创 2020-07-22 19:39:11 · 1771 阅读 · 1 评论 -
正则化理解
正则化入门理解L1和L2正则化转载 2020-07-06 23:46:28 · 1933 阅读 · 0 评论 -
ROC-AUC曲线理解
auc-roc转载 2020-07-06 22:47:11 · 129 阅读 · 0 评论 -
机器学习中pr曲线的理解
p-r曲线转载 2020-07-06 18:38:32 · 688 阅读 · 0 评论 -
precision and recall
讲得很好的连接补充一下,为了提高查全率,我们可以预测有10只狗,但事实上只有6条狗,你会发现,查全率,查准率一个高了一个低了。查全率查准率在不同的场景中有应用,如上连接中的推荐系统和嫌疑犯预测...原创 2020-07-06 16:28:14 · 95 阅读 · 0 评论 -
转换器和估计器
转换器我们把特征工程的接口称之为转换器,其中转换器调用有这么几种形式fit_transform,fit,transform预估器在sklearn中,估计器(estimator)是一个重要的角色,是一类实现了算法的API如:sklearn.neighbors k-近邻算法sklearn.naive_bayes 贝叶斯sklearn.linear_model.LogisticRegression 逻辑回归sklearn.tree 决策树与随机森林...原创 2020-07-04 18:41:25 · 279 阅读 · 0 评论 -
TF-IDF算法
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。TF-IDF有两层意思,一层是"词频"(Term Frequency,缩写为TF),另一层是"逆文档频率"(Inverse Document Frequency,缩写为IDF)简单的来说,假如我们要求一篇文章《我为什么这么帅》中关键词或者说是代表文章核心主旨的词语。应该怎么求呢。 很原创 2020-06-22 17:29:10 · 357 阅读 · 0 评论