![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
vinojie
这个作者很懒,什么都没留下…
展开
-
Bert源码解析笔记(三):Fine-tune
Bert官方给出了两个任务的fine-tune代码:run_classifier.pyrun_squad.py一、run_classifier.py1、参数## Required parametersflags.DEFINE_string( "data_dir", None, "The input data dir. Should contain the .tsv files (or other data files) " "for the task.")flag原创 2020-07-03 18:04:04 · 596 阅读 · 0 评论 -
Bert源码解析笔记(二):模型主体
Bert模型是基于Transformer架构的(论文:Attention is all you need),它在处理Seq2Seq问题的时候,直接利用注意力机制代替了传统RNN,LSTM,RNN等的固有模式,这些之前固有的模式有个问题就是计算输出的时候不能并行计算,所以Transformner的比之前固有的模式优势在于靠attention机制,不使用RNN,CNN等,并行度高,通过attention,抓长距离依赖关系比RNN强。Bert大火却不懂Transformer?这篇文章关于Tansformer说的比原创 2020-07-02 17:04:16 · 565 阅读 · 0 评论 -
Bert源码解析笔记(一):Pre-train
pre-train涉及三个模块tokenization.pycreate_pretraining_data.pyrun_pretraining.py其中tokenization是对原始句子内容的解析,分为BasicTokenizer和WordpieceTokenizer和Fulltokenizer三种,其中FullTokenizer是前两种方法的结合,不只在预训练中,在fine-tune和推断过程同样要用到它;create_pretraining_data顾名思义就是将原始语料转换成适合模型预训原创 2020-06-28 17:48:32 · 1187 阅读 · 0 评论 -
英文文本预处理流程总结
自然语言处理之英文文本预处理流程总结转载 2020-06-24 16:20:36 · 3571 阅读 · 1 评论 -
基于HanLP的自然处理入门--词典分词
词典分词的三种切分算法:正向最长匹配、逆向最长匹配,双向最长匹配,以及HanLP语言包的实现。原创 2020-06-20 16:19:23 · 624 阅读 · 0 评论