![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习笔记
文章平均质量分 88
月夜长影
专注技术学习。
展开
-
论文笔记 | Masked Language Modeling for Proteins via Linearly Scalable Long-Context Transformers
介绍常规Transoformer的计算复杂度是O(L2d)O(L^2d)O(L2d),空间复杂度是O(L2)O(L^2)O(L2),在长序列的情况下,比如基因序列的处理,序列长度LLL太大会导致计算成本大到难以接受。本文提出Fast Attention Via Orthogonal Random features (FAVOR)方法,在不改变原先transformer模型架构的前提下,高效地估计出attention矩阵,时间复杂度为O(Ld2logd)O(Ld^2\log d)O(Ld2logd),空原创 2021-05-24 21:27:23 · 388 阅读 · 0 评论 -
一文读完 Machine Learning Yearning
文章目录引言介绍设定开发集和测试集训练集、开发集、测试集开发集和测试集分布一致开发集和测试集的大小建立标量评价指标何时换开发集/测试集/评价指标基本错误分析快速构建第一个系统,然后迭代错误分析:根据开发集评估想法清除错误标签和样本如果开发集较大,分出部分用于错误分析偏差和方差两大类错误源对照最优错误率对付偏差和方差学习曲线人类水平对照必要性如何定义人类水平超越人类水平训练测试分布不同何时会有这种情...原创 2019-09-11 18:39:50 · 537 阅读 · 0 评论