![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
dataastron
工程师
展开
-
自然语言处理_中文预训练词向量的主要区别整理
模型出处说明bert_basegoogletransformerBERT-wwm哈工大在原始bert-base的基础上引入whole word mask,其实就是分词后的词进行maskernie1.0百度token,entity,phrase进行mask。除此之外,本论文中还引入了对话语料,丰富语料的来源,并针对对话语料,给出了一个和NSP相似的任务ernie2.0百度,未开源中文引入了多大7个任务来预训练模型,并且采用的是逐次增加任务的方式来预训练...原创 2020-05-26 22:31:08 · 678 阅读 · 0 评论 -
nlp对抗训练(Keras实现)
近年来,随着深度学习的日益发展和落地,对抗样本也得到了越来越多的关注。在CV领域,我们需要通过对模型的对抗攻击和防御来增强模型的稳健型,比如在自动驾驶系统中,要防止模型因为一些随机噪声就将红灯识别为绿灯。在NLP领域,类似的对抗训练也是存在的,不过NLP中的对抗训练更多是作为一种正则化手段来提高模型的泛化能力!Fast Gradient Method(FGM),它由GAN之父Goodfellow在论文《Explaining and Harnessing Adversarial Examples》首先提出。转载 2020-05-25 11:30:29 · 1578 阅读 · 0 评论 -
自然语言处理_样本处理_Stratified k-fold
Stratified k-foldStratifiedKFold is a variation of k-fold which returns stratified folds: each set contains approximately the same percentage of samples of each target class as the complete set.from sklearn.model_selection import StratifiedKFold, KFoldi原创 2020-05-25 10:39:25 · 179 阅读 · 0 评论 -
自然语言处理_文本相似度x_编辑距离(python库)
编辑距离,又称Levenshtein距离.表示从字符串1到字符串2,需要增删改操作的最小次数编辑距离实现的原理是动态规划算法,leetcode经典题目中有一道.python中有现成的库实现,安装方法如下pip install python-Levenshtein --user包中所有的方法如下图所示本文只演示distanceimport LevenshteinLevenshtein.distance("自然语言处理","自然语言处理技术")Levenshtein.distance("自原创 2020-05-24 20:51:49 · 1055 阅读 · 0 评论 -
自然语言处理_基础技术4_CountVectorizer
onehot编码是一种稀疏编码方式,如果词语越多,维度也越大.会出现维数灾难.针对one-hot编码,sklearn中实现如下.CountVectorizer类(计数向量)先用英文举例.它会针对每个单词计数,丢失位置信息from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document.', 'This document is the second doc原创 2020-05-23 21:39:50 · 293 阅读 · 0 评论 -
自然语言处理博文汇总
自然语言处理系列1_tfidf自然语言处理_分词系列1_jieba自然语言处理_分词系列2_hanlp自然语言处理_词向量系列1_onehot自然语言处理_词向量系列2_word2vec自然语言处理_词向量系列3_gensim原创 2020-05-23 19:26:00 · 187 阅读 · 0 评论