![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
curry3030
这个作者很懒,什么都没留下…
展开
-
BERT Pytorch版本 源码解析(二)
BERT Pytorch版本 源码解析(二)四、BertEmbedding 类解析BertEmbedding部分是组成 BertModel 的第一部分,今天就来讲讲 BertEmbedding 的内部实现细节。4.1、Embedding 的组成以及设置 def __init__(self, config): super(BertEmbeddings, self).__init__() self.word_embeddings = nn.Embeddin原创 2020-05-12 23:11:02 · 1147 阅读 · 0 评论 -
Gensim 库使用手册
Gensim 库使用手册一、安装pip install gensim使用上述安装方式会出现安装失败的情况,主要原因就是因为镜像节点太慢了,所以换个镜像节点就好了。pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gensim二、使用GloVe预训练词向量首先是GloVe预训练词向量的下载地址:ht...原创 2020-03-14 22:50:28 · 1124 阅读 · 0 评论 -
NLP模型常见问题及解决方案
一、序列标注任务预测输出全为0的情况:1.1、模型搭建出现问题,检查模型是否正确1.2、学习率太小导致未收敛出现全0的情况,其中如果含BERT的模型可以尝试对不同参数设置不同学习率。1.3、batch_size过大导致全0的情况,需要调小batch二、关于含Bert模型的参数设置问题学习率建议设置为:1e-5 / 2e-5 / 5e-5Batch_Size建议设置:8...原创 2020-02-03 14:00:01 · 1694 阅读 · 0 评论 -
PyTorch(一) DataSet and DataLoader
PyTorch(一) DataSet and DataLoader目录一、DataSet1.1、DataSet 简介1.2、DataSet 代码实现二、DataLoader2.1、DataLoader 简介2.2、DataLoader 源码介绍2.3、DataLoader 代码实现三、DataSet 与 DataLoader 的相关性一、DataSet1...原创 2020-01-07 16:16:10 · 159 阅读 · 0 评论 -
BERT Pytorch版本 源码解析(一)
BERT Pytorch版本 源码解析(一)一、BERT安装方式pip install pytorch-pretrained-bert二、BertPreTrainModel:一个用于获取预训练好权重的抽象类,一个用于下载和载入预训练模型的简单接口1、初始化函数(def __init__(self, config, *inputs, **kwargs)):def _...原创 2019-11-08 14:21:41 · 11141 阅读 · 20 评论 -
自然语言处理(一)规则分词
一、中文分词技术简介在英语中,单词本身就是词的表达,一篇英语文章就是“单词”加分隔符(空格)来表示的,在汉语中,词以字为基本单位的,但是一篇文章的语义表达却依然是以词来划分的。因此,在处理中文文本时,需要进行分词处理,将句子转化为词的表示。这个切词的过程就是中文分词,它是通过不同的算法利用计算机自动识别出句子的词,在词间加入边界标记符,分割出各个词汇。由于分词的主要困难在于分词的歧义问题,对于...原创 2019-07-02 00:04:09 · 1549 阅读 · 0 评论 -
自然语言处理(二)统计分词(隐马尔可夫模型)
一、统计分词简介随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词算法渐渐成为主流,其主要思想是把每个词看作是词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的而次数越多,就证明这相连的字很可能是一个词。因此我们就可以利用字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当组合频度高于某一个临界值时,我们便可认为此字组可能会构成一个...原创 2020-01-03 19:16:07 · 1516 阅读 · 0 评论 -
自然语言处理(三)文章高频词提取
一、高频词汇提取简介高频词一般是指文档中出现频率较高且并非无用的词语,其一定程度上代表了文档的焦点所在。针对单篇文档,可以作为一种关键词来看。对于如新闻这样的多篇文档,可以将其作为热词,发现舆论的焦点。其中高频词提取其实就是自然语言处理中的TF(Term Frequency)策略。二、数据集下载及算法介绍数据集下载地址:https://github.com/nlpinaction/le...原创 2019-07-05 21:24:22 · 11334 阅读 · 0 评论