深度学习
文章平均质量分 70
to do 1+1
自然语言处理 机器学习 深度学习 大家相互交流学习
展开
-
《Rethinking Boundaries: End-To-End Recognition of Discontinous Mentions with Pointer Networks》读后感
《Rethinking Boundaries: End-To-End Recognition of Discontinous Mentions with Pointer Networks》1. 导论2. 模型架构2.1 方法概述2.2 模型整体架构2.2.1 Input Representation和Transformer Representation2.2.2 原始的Pointer机制2.2.3 memory-augmented的Pointer机制3. Teacher Forcing and Dynami原创 2021-07-15 20:01:30 · 444 阅读 · 0 评论 -
BERT所占内存的计算
@苹果树数据科技有限公司-AI部BERT所占内存的计算以BERT-base为例,占用110million的参数,数据格式为半精度浮点型(FP16),则占用内存的计算如下:1B=8字节FP16表示16字节则总共内存占用为:110*10^6*16 / 8 = 0.22*10^9换算成GB:0.22*10^9 / (1024^3) = 0.205GB ...原创 2021-02-10 22:32:21 · 2875 阅读 · 0 评论 -
《Leverage Lexical Knowledge for Chinese Named Entity Recognition via》解读
论文地址与代码地址代码地址论文地址Abstract词汇边界信息的缺失是高性能NER的主要障碍之一,幸运的是,能够自动地构建包含词汇边界信息和词汇语义信息的词汇。然而,融合中文NER的词汇信息面临了挑战,因为自匹配的词汇和最近的上下文词汇,作者提出了Collborative Graph Network来解决这个挑战。实验结果显示:在多个任务上,不仅性能提升,而且速度比SOTA模型快6-7倍。1 Introduction套路,所有论文一样的写法2 Related Work套路,所有论文一样的写法原创 2021-02-02 20:50:27 · 675 阅读 · 0 评论 -
import numpy报错
在import numpy以及import tensorflow中报错如下 ** On entry to DGEBAL parameter number 3 had an illegal value ** On entry to DGEHRD parameter number 2 had an illegal value ** On entry to DORGHR DORGQR parameter number 2 had an illegal value ** On entry to DH原创 2020-11-05 11:10:11 · 5723 阅读 · 29 评论 -
报错 Non-OK-status CudaLaunchKernel
在构建深度学习模型的时候提示Non-OK-status: CudaLaunchKernel(FillPhiloxRandomKernelLaunch, num_blocks, block_size, 0, d.stream(), gen, data, size, dist) status: Internal: out of memory原因是config.gpu_options.per_process_gpu_memory_fraction = 0.99,比例设置太大了,cuda无法提供,所以报错,改小点原创 2020-05-24 21:41:13 · 4862 阅读 · 1 评论 -
标签平滑label smoothing
lable smoothing是分类问题中错误标注的一种解决方法。对于分类问题,特别是多分类问题,常常把向量转换成one-hot-vectorone-hot带来的问题:对于损失函数,我们需要用预测概率去拟合真实概率,而拟合one-hot的真实概率函数会带来两个问题:1)无法保证模型的泛化能力,容易造成过拟合;2) 全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大,而由梯度有界可知...转载 2019-11-12 13:46:39 · 614 阅读 · 0 评论