自然语言处理
月满星沉
cver & nlper。
展开
-
【深度学习笔记】循环神经网络和递归神经网络区别
1.循环神经网络(recurrent neural network)是时间上的展开,处理的是序列结构的信息,是有环图,模型结构如下: recurrent: 时间维度的展开,代表信息在时间维度从前往后的的传递和积累…2.递归神经网络(recursive neural network)递归神经网络是空间上的展开,处理的是树状结构的信息,是无环图,模型结构如下: recursive: 空间维度的展开,是一个树结构,比如nlp里某....原创 2020-08-04 16:19:36 · 5493 阅读 · 0 评论 -
【深度学习笔记】PyTorch中的nn.Conv2d()卷积的参数解析
nn.Conv2d二维卷积可以处理二维数据nn.Conv2d(self, in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True))参数解析:in_channel: 输入数据的通道数,例RGB图片通道数为3;out_channel: 输出数据的通道数,这个根据模型调整;kennel_size: 卷积核大小,可以是int,或tuple;kennel_size=2,原创 2020-08-04 15:37:52 · 1880 阅读 · 0 评论 -
【NLP学习笔记】训练集、验证集和测试集的概念及划分
一、概念训练集:用于训练的样本集合,主要用来训练神经网络中的参数。验证集:用于验证模型性能的样本集合。不同神经网络在训练集上训练结束后,通过验证集来比较判断各个模型的性能.这里的不同模型主要是指对应不同超参数的神经网络,也可以指完全不同结构的神经网络。测试集:对于训练完成的神经网络,测试集用于客观的评价神经网络的性能。二、深入理解他们之间的区别神经网络在网络结构确定的情况下,有两部分影响模型最终的性能,一是普通参数(比如权重w和偏置b),另一个是超参数(例如学习率,网络层数)。普通参数我们原创 2020-07-21 12:11:01 · 6865 阅读 · 0 评论 -
【NLP学习笔记】NLP基础知识框架图
为了形成完整的知识体系架构,个人自行整理了NLP领域的基础知识的架构图,仅供参考原创 2020-07-16 22:23:34 · 1761 阅读 · 0 评论 -
【NLP学习笔记】词共现矩阵
词共现矩阵定义通过统计一个事先指定大小的窗口内的word共现次数,以word周边的共现词的次数做为当前word的vector。具体来说,我们通过从大量的语料文本中构建一个共现矩阵来定义word representation。例子有语料如下:I like deep learning.I like NLP.I enjoy flying.则其共现矩阵如下:将共现矩阵行(列)作为词向量表示后,可以知道like,enjoy都是在I附近且统计数目大约相等,他们意思相近。矩阵定义的词向量在一定程度原创 2020-07-16 22:02:53 · 4123 阅读 · 0 评论 -
【Python学习笔记】lambda表达式
lambda表达式主要用于短小的回调函数。形如:lambda arg1[,arg2][,arg3][...]: expression说明:arg1[,arg2][,arg3][…]为参数列表。expression表达式语句中不能出现多条语句。lambda应用举例:求和lamd = lambda x, y: x + yprint(lamd(10, 222))...原创 2020-07-16 16:31:44 · 194 阅读 · 0 评论 -
【Python学习笔记】切片x[::2] 理解
python中符合序列的有序序列都支持切片,例如列表、字符串、元祖。中括号中的参数意义分别是:[开始索引:结束索引:步长]例如x=[1,2,3,4,5,6],则x[1::2]=[2,4,6]第一个位置为空,默认为0第二个位置为空,默认为最后一个元素位置第三个元素为空,默认步长为1当步长取负值的时候,表示的是 逆序 !...原创 2020-07-16 11:38:23 · 13164 阅读 · 0 评论 -
【NLP学习笔记】tf.keras基础:对于层(layers)的操作 +对模型(Model)的操作
对于层(layers)的操作layer.get_weights() #返回该层的权重layer.set_weights(weights)# 将权重加载到该层config = layer.get_config()# 保存该层的配置layer = layer_from_config(config)# 加载一个配置到该层# 该层有一个节点时,获得输入张量、输出张量、及各自的形状:layer.inputlayer.outputlayer.input_shapelayer.output_shape原创 2020-07-15 14:52:54 · 750 阅读 · 1 评论 -
【深度学习笔记】Tensorflow中dense(全连接层)各项参数
定义dense( inputs, units, activation=None, use_bias=True, kernel_initializer=None, bias_initializer=tf.zeros_initializer(), kernel_regularizer=None, bias_regularizer=None, activity_regularizer=None, trainable=True,原创 2020-07-15 14:18:05 · 3737 阅读 · 0 评论 -
【深度学习笔记】卷积核weights参数shape说明
weights = tf.get_variable('weights', shape=[3, 3, 3, 16], dtype=tf.float32, initializer=tf.truncated_normal_initializer(stddev=0.1, dtype=tf.float32))sh原创 2020-07-15 14:07:21 · 1522 阅读 · 0 评论 -
【NLP学习笔记】word2vec
简而言之,word2vec模型本质上是一个简化的神经网络。原创 2020-07-13 11:51:49 · 677 阅读 · 0 评论 -
【NLP学习笔记】One-hot encoding:独热编码
一、存在问题在机器学习算法中,特征并不总是连续值,常会遇到分类特征是离散的、无序的。例如:性别有男、女,城市有北京,上海,深圳等。离散特征的编码分为两种情况:离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}性别特征:[“男”,“女”] = [ 0,1 ]地区特征:[“北京”,"上海,“深圳”] = [ 0,1,2 ]工作特原创 2020-07-13 10:44:55 · 3971 阅读 · 1 评论 -
【NLP学习笔记】词向量的预训练
深入理解——词向量的预训练原创 2020-07-09 11:48:05 · 405 阅读 · 0 评论 -
【NLP学习笔记】使用jieba实现关键词提取
1 关键词提取jieba 提供了两种关键词提取方法,分别基于 TF-IDF 算法和 TextRank 算法。4.1 基于 TF-IDF 算法的关键词提取TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率)是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度,其原理可概括为:一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章计算公式:TF-IDF = TF * IDF,其中原创 2020-07-09 10:52:38 · 820 阅读 · 0 评论 -
【转载】炼丹实验室:深度学习网络调参技巧
转载自:炼丹实验室:深度学习网络调参技巧深度学习网络调参技巧好的实验环境是成功的一半画图从粗到细分阶段调参提高速度超参数范围经验参数自动调参总结参考资料好的实验环境是成功的一半由于深度学习实验超参众多,代码风格良好的实验环境,可以让你的人工或者自动调参更加省力,有以下几点可能需要注意:将各个参数的设置部分集中在一起。如果参数的设置分布在代码的各个地方,那么修改的过程想必会非常痛苦。可以输出模型的损失函数值以及训练集和验证集上的准确率。可以考虑设计一个子程序,可以根据给定的参数,启动训练并监控和转载 2020-07-04 17:55:49 · 377 阅读 · 0 评论 -
【深度学习笔记】文本分类
深度学习经验借鉴1 模型显然并不是最重要的2 理解你的数据3 超参调节4 一定要用 dropout5 未必一定要 softmax loss6 类目不均衡问题7 避免训练震荡1 模型显然并不是最重要的好的模型设计对拿到好结果的至关重要,也更是学术关注热点。但实际使用中,模型的工作量占的时间其实相对比较少。虽然再第二部分介绍了5种CNN/RNN及其变体的模型,实际中文本分类任务单纯用CNN已经足以取得很不错的结果了,我们的实验测试RCNN对准确率提升大约1%,并不是十分的显著。最佳实践是先用TextCNN模原创 2020-07-04 17:34:25 · 311 阅读 · 0 评论 -
【NLP学习笔记】文本分类概述
文本分类问题给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个。文本分类应用常见的有垃圾邮件识别、情感分析、新闻文本分类。文本分类方向主要有二分类,多分类,多标签分类。文本分类方法传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等)。文本分类流程文本分类的处理大致分为文本预处理、文本特征提取、分类模型构建等。和英文文本处理分类相比,中文文本的预处理是关键技术。参考资料[1] 文本分类概述(nlp).[] [] [] [] [原创 2020-07-12 10:37:04 · 942 阅读 · 1 评论 -
【NLP学习笔记】停用词(stop words)
此坑待填停用词1 定义2 介绍3 功能4 种类5 引用1 定义2 介绍3 功能4 种类5 引用[1] 停用词[2] 自然语言处理-停用词[3] Github-stopwords[4] 扫雷大军:为什么你不应该去除停用词?[] [] [] [] [] [] ...原创 2020-06-10 16:45:53 · 2770 阅读 · 1 评论 -
【深度学习笔记】batchsize, time step(iteration), epoch 区别与联系
变量 含义 epoch 一个epoch表示训练集中所有训练样本训练学习一遍 time step /iteration 每运行一个time step /iteration,更新一次参数权重,即进行一次学习,每一次更新参数需要batch size个样本进行运算学习,根据运算结果调整更新一次参数。 batchsize 1次迭代所使用的样本数量 三者的联系:iteration = ( exampleNums∗epoch )/batchsize例子:假设训练...原创 2020-06-04 22:31:20 · 2074 阅读 · 2 评论 -
依存句法分析
一、句法分析句法分析是自然语言处理中的关键技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容:一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的定义;二是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。二、语法体系句法分析需要遵循某一语法体系,根据该体系的语法确定语...原创 2019-08-10 09:56:33 · 2331 阅读 · 0 评论 -
【NLP学习笔记】中文分词(Word Segmentation,WS)
中文分词指的是将汉字序列切分成词序列。因为在汉语中,词是承载语义的最基本的单元。分词是信息检索、文本分类、情感分析等多项中文自然语言处理任务的基础。切分歧义是分词任务中的主要难题。 LTP的分词模块基于机器学习框架,可以很好地解决歧义问题。同时,模型中融入了词典策略,使得LTP的分词模块可以很便捷地加入新词信息。...原创 2019-08-10 10:06:17 · 798 阅读 · 0 评论 -
【NLP学习笔记】词性标注(Part-of-speech Tagging, POS)
POS是给句子中每个词一个词性类别的任务。 这里的词性类别可能是名词、动词、形容词或其他。 下面的句子是一个词性标注的例子。其中,v代表动词、n代表名词、c代表连词、d代表副词、wp代表标点符号。词性作为对词的一种泛化,在语言识别、句法分析、信息抽取等任务中有重要作用。 比方说,在抽取“歌曲”的相关属性时,我们有一系列短语:儿童歌曲欢快歌曲各种歌曲悲伤歌曲……如果进行了词性...原创 2019-08-10 10:13:49 · 3768 阅读 · 0 评论 -
【NLP学习笔记】语义角色标注 (Semantic Role Labeling, SRL)
SRL是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色) ,如施事、受事、时间和地点等。其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。 仍然是上面的例子,语义角色标注的结果为:其中有三个谓词提出,调研和探索。以探索为例,积极是它的方式(一般用ADV表示),而新机制则是它的受事(一般用A1表示)核心的语义角色为 A0-5 六种,A0 通常表示动作的施事,A...原创 2019-08-10 10:38:12 · 5521 阅读 · 0 评论 -
《知识图谱》阅读笔记(七)
7.4 事件关系抽取7.4.1 事件共指关系抽取7.4.1 事件因果关系抽取7.4.1 子事件关系抽取子事件关系反映了时间之间的粒度和包含关系。7.4.1 事件时序关系抽取7.5 小结...原创 2019-08-11 15:21:30 · 247 阅读 · 0 评论 -
《知识图谱》阅读笔记(九)
9.1 知识图谱中的典型推理任务9.1.1 知识补全9.1.2 知识问答9.2 知识推理分类9.2.1 归纳推理和演绎推理9.2.1.1 归纳推理归纳是从特殊到一般 的过程。所谓归纳推理,就是根据部分对象所具有的的性质,推出一类事物中所有对象都具有这类性质的推理方式。其一般分为三个步骤:(1)对部分资料进行观察、分析和归纳整理;(2)得出规律性结论,即猜想;(3)检验猜想;计...原创 2019-08-13 22:37:09 · 332 阅读 · 0 评论