自然语言处理(NLP)
SinGaln
这个作者很懒,什么都没留下…
展开
-
华为NEZHA预训练模型中的Relative Position与self_attention详解
文章目录前言前言最近读了一下华为NAZHA预训练模型,该模型的主要创新之处在于在Transformer阶段加入了Relative Position Embedding(相对位置编码),具体的是在Q*V计算得到的attention_scores后加入了Key的Relative Position,在计算得到的context 也加入了Value的Relative Position,详情请看代码。。小编已经对这部分代码进行了注释,主要注释了各个阶段的维度变化,这样对于小白来说代码读起来比较轻松。直接上代.原创 2021-04-25 14:57:07 · 1197 阅读 · 0 评论 -
利用GPT2训练中文闲聊模型
利用GPT2模型来做一个小说生成器最近看了一下GPT2模型,看到很多博主都用来写诗歌,做问答等,小编突然萌生一个想法,利用GPT2来训练一个小说写作器。各位,敬请期待,等小编的小说上架了,欢迎来看!!文章目录利用GPT2模型来做一个小说生成器前言一、小说数据的构建二、模型搭建总结前言本来想用清源CPM预训练模型来进行的,可惜硬件条件不够,只能用中GPT模型来训练一个专门写小说的模型了。硬件条件好的小伙伴,推荐你们使用CPM来做,看别人做的效果还是不错的,清源CPM的模型有4.47G,小伙伴们量原创 2021-04-12 17:10:15 · 3113 阅读 · 2 评论 -
利用特定领域模型训练Bert模型
目录前言一、预训练模型思路?二、数据处理1.Token总结前言最近刚完成医疗电子病历模型的预训练,经过测试效果还不错,相比于原生Bert在序列标注任务和文本分类任务中提升了大约2个点,让小编也理解了Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks, ACL2020的真谛,真的是这样的!!一、预训练模型思路? 对于预训练模型,我们通常想到的是Bert,Albert,Robeta等,这些预训练模型一次又一次的对各种原创 2021-04-07 17:55:38 · 2737 阅读 · 2 评论 -
transformer的pytorch实现(可以根据自己的需求进行一些小trick)
根据自己对transformer的理解写的一个代码,使用时只需实例化Positional_Encoding类与Encoder类,使用多层Encoder时,可以设置Encoder循环的次数。# coding = utf-8import torchimport numpy as npimport torch.nn as nnimport torch.nn.functional as F# Scaled dot-product attentionclass Scaled_Dot_Product_原创 2020-12-21 10:04:05 · 634 阅读 · 0 评论 -
Kashgari:一个方便快捷的命名实体识别、文本分类工具包
Kashgari:一个方便快捷的命名实体识别、文本分类工具包最近小编做一个项目时发现的一个很好用的工具包(很适合小白直接上手)Kashgari安装(1)利用pip直接安装,这里为了方便小伙伴更加快捷的安装,使用了清华镜像源。pip install kashgari -i https://pypi.tuna.tsinghua.edu.cn/simple/(2)如果装了Anaconda环境就用conda安装(用pip也行),安装速度慢的话也可以先配置为清华镜像源。conda install kas原创 2020-09-24 10:09:43 · 5399 阅读 · 29 评论 -
tensorflow分类任务MNIST数据集
import tensorflow as tfimport numpy as npfrom tensorflow.examples.tutorials.mnist import input_dataimport matplotlib.pyplot as pltmnist = input_data.read_data_sets('MNIST_data/',one_hot=True)bat...原创 2019-04-09 14:11:23 · 355 阅读 · 1 评论 -
mxnet实现softmax regression(多层感知机)
'coding = utf-8'import mxnet.ndarray as ndfrom mxnet import gluonimport matplotlib.pyplot as pltfrom mxnet import ndimport sysfrom mxnet import autograddef transform(data,label): return da...原创 2018-09-15 10:34:19 · 693 阅读 · 0 评论 -
mxnet实现线性回归(linear regression)
采用mxnet实现线性回归算法'coding = utf-8'import mxnet.ndarray as ndfrom mxnet import autogradimport random#数据的生成1000*2num_inputs = 2num_examples = 1000ture_w = [2,-3.4]ture_b = 4.2x = nd.random_no...原创 2018-09-14 16:41:37 · 721 阅读 · 0 评论 -
mxnet深度学习框架的求导
mxnet深度学习框架是一个很优秀的框架,其中包括了很多的模型。'coding = utf-8'import mxnet.ndarray as ndimport mxnet.autograd as ag#对f = 2 * (x ** 2)求关于x的导数,我们先创建变量x,并赋初值x = nd.array([[1,2],[3,4]])#创建一个矩阵xx.attach_grad()#...原创 2018-09-14 15:52:05 · 438 阅读 · 0 评论 -
线性回归的小代码(传统计算和梯度下降的计算)
数据集:dataset 密码:fl02 梯度下降的方法对于大数据量的处理十分重要。#coding = 'utf-8'import numpy as npfrom numpy.linalg import inv#求矩阵的逆from numpy import dot#矩阵点乘from numpy import mat#引入矩阵import pandas as pddataset =...原创 2018-09-14 14:27:54 · 221 阅读 · 0 评论 -
numpy 的简单学习(矩阵的创建,乘法运算,转置,随机生成矩阵的方法)
numpy的一些简单小常识#coding = 'utf-8'import numpy as npa = np.array([2,1,4,6,3])#创建一个数组aprint(a)print('=================================')b = np.zeros((3,4))#创建一个3*4的0元素矩阵print(b)print('==========...原创 2018-09-14 14:15:54 · 2990 阅读 · 0 评论 -
ValueError: setting an array element with a sequence.错误处理。。。
对于这个错误,看了很多的博客资料。都说数组元素没有对齐,找到相应的列补充元素就行,看了之后心累啊。。。。 小编做自然语言处理,几个G的文本啊,怎么找啊!!!!! 所以,经过我的一番努力,终于找到了解决办法。。。。 就几行代码的事:主要是补全元素import numpy as npvec = []f = open('a.txt', encoding='utf-8')while Tr...原创 2018-08-31 12:43:27 · 36144 阅读 · 5 评论 -
自然语言处理语料
搜狗新闻语料 密码:7grc 百度百科数据 密码:gshk SougouR语料 密码:phwd freebase_mid2name 密码:cafv freebase-FB5M 密码:0imt 69万大词库 密码:fmqf 汉语词库 密码:witn 哈工大LTP models ...原创 2018-08-26 17:15:12 · 1781 阅读 · 2 评论 -
jieba分词,去除停用词并存入txt文本
代码如下,停用词获取点击这里。 密码:cef8# -*- coding: utf-8 -*-import jiebaimport jieba.analyseimport jieba.posseg as psegimport refrom pyltp import NamedEntityRecognizer# jieba.load_userdict('userdict.txt')...原创 2018-08-26 17:04:29 · 15951 阅读 · 4 评论 -
自然语言处理(NLP)入门
本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。什么是NLP?简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子和段落。这并不原创 2017-11-21 20:32:26 · 126117 阅读 · 16 评论 -
python实现最简单的机器学习算法之一-----K-近邻算法
今天在刘峤的《知识图谱构建技术综述》看到了K-近邻算法: 就进行了简单的了解; 首先,我们来了解一下什么是K-近邻算法。概念:所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。来个简单的案例介绍: 有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表原创 2017-10-29 14:27:56 · 572 阅读 · 0 评论