![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
DeepLearning
文章平均质量分 92
Luyoom
人必有痴,而后有成
展开
-
【一文搞定】Transfomer和BERT
论文导航TransformerBert前言不知道有没有人像我一样,再最开始接触 Transfomer 和Bert 的时候,感觉就是云里雾里,只知道着 Bert 不是基于 Transformer 的构建的吗,对他们之间的具体区别一直没有清晰到位的理解 (((φ(◎ロ◎;)φ)))。于是在论文阅读和资料查找答疑之后,用这篇博文记录自己的理解,也方便以后回顾。Transfomertransfomer 原意为变形金刚,由于网络中attention部分就像是用于组装的零件,能根据我们的设计和需要构成各种模原创 2021-04-10 22:49:10 · 476 阅读 · 0 评论 -
cs231n 基于CIFAR10的 svm_loss 实现
内容概括数据集 – CIFAR1060000张 彩色图像 – 这些图像是32*32,分为10个类,每类6000张图。50000张 – 用于训练 – 构成了5个训练批,每一批10000张图;10000张 – 用于测试 – 单独构成一批下载链接:http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gzloss f...原创 2019-10-14 21:21:09 · 363 阅读 · 0 评论