2020年09月_Cater Chen

原创 NLP ——Doc2vec

NLP ——Doc2vec即使利用word2vec对词向量进行平均处理，我们仍然忽略了单词之间的排列顺序对情感分析的影响。即上述的word2vec只是基于词的维度进行”语义分析”的，而并不具有上下文的”语义分析”能力。在一个句子或者文档的训练过程中，段落 ID 保持不变，共享着同一个段落向量。在word2vec的基础上添加一个段落向量。训练单词向量W时，也训练段落向量D，并且在训练结束时，它包含了段落的向量化表示。虽然单词向量表示单词的概念，但段落向量旨在表示段落的概念。PV-DM训练

2020-09-30 17:25:32 428

原创 NLP ——GloVe

NLP ——GloVeglove是一个全局对数双线性回归模型（global log bilinear regression model）。顾名思义，该模型用到了语料库的全局特征，即单词的共现频次矩阵，并且，其优化目标函数是对数线性的，并用回归的形式进行求解。本质上是对共现矩阵进行降维。首先基于语料库构建词的共现矩阵，然后基于共现矩阵和GloVe模型学习词向量。对于中心词：中心词变换：现在我们已经知道ice和steam这两个词在语料中出现的频率，这两个词被视为目标词（target wo

2020-09-30 16:24:41 619

原创 NLP ——句向量表示

NLP ——句向量表示基于Word2vec （1）（2）基于GloVeGloVe词向量模型融合了全局矩阵分解方法（Matrix Factorization）和局部文本框捕捉方法（word2vec），是一种用于获得单词矢量表示的无监督学习算法。Gensim加载GloVe训练的词向量Doc2Vec（Gensim）Doc2vec是在Word2vec的基础上做出的改进，它不仅考虑了词和词之间的语义，也考虑了词序。Doc2Vec有两种模型，分别为：句向量的分布记忆模型（PV-DM: Distr

2020-09-30 11:13:38 1230

原创 NLP ——Negative Sampling

NLP ——Negative Sampling如果我们的训练样本里的中心词????是一个很生僻的词，那么就得在霍夫曼树中辛苦的向下走很久了。能不能不用搞这么复杂的一颗霍夫曼树，将模型变的更加简单呢？Negative sampling 解决了这个问题，每次我们就修改了其中一小部分weight，而不是全部。将随机选择一小部分的 negative words，比如选 10个 negative words 来更新对应的权重参数。下面我们就来看看Negative Sampling的求解思路。比如我们有一个训

2020-09-30 10:22:48 462

原创 NLP ——Hierarchical Softmax

NLP ——Hierarchical Softmaxword2vec为什么不用现成的DNN模型，要继续优化出新方法呢？问题：从隐藏层到输出的softmax层的计算量很大，因为要计算所有词的softmax概率，再去找概率最大的值。word2vec对这个模型做了改进：首先，对于从输入层到隐藏层的映射，没有采取神经网络的线性变换加激活函数的方法，而是采用简单的对所有输入词向量求和并取平均的方法。为了避免要计算所有词的softmax概率，word2vec采样了霍夫曼树来代替从隐藏层到输出so

2020-09-29 18:50:11 184

原创 NLP ——Skip-gram 和 CBOW

NLP ——Skip-gram 和 CBOWone-hot隐藏层没有激活函数词向量的维度一般情况下要远远小于词语总数的大小（降维操作）用技巧来加速训练：Hierarchical softmax本质是把 N 分类问题变成 log(N)次二分类negative sampling本质是预测总体类别的一个子集其实在真正应用的时候，只需要调用 Gensim （一个 Python 第三方库）的接口就可以。但对理论的探究仍然有必要，你能更好地知道参数的意义、模型结果受哪些因素影响

2020-09-29 16:39:24 189

原创 NLP基础学习清单

NLP基础文本相似度计算TF-IDF模型LSI模型LDA模型

2020-09-29 15:14:04 112

原创神经网络多数据集联合训练问题

神经网络多数据集联合训练问题问题描述：现有三个数据集dataset_1，dataset_2，dataset_3用于联合训练，但最后需要在dataset_3上进行测试（dataset_3为实际需求中的数据集），对一下两个方案进行实验：优先对dataset_1，dataset_2进行训练，然后在此权重基础上继续对dataset_3训练。联合dataset_1，dataset_2，dataset_3训练，并按比例分配三个数据集在每个batch size传入的张数，如batch size为64时，三个数

2020-09-18 10:56:46 6724 7

原创 TensorFlow ——slim.batch_norm大坑(参数设置以及保存问题）

TensorFlow ——slim.batch_norm参数设置问题slim.batch_norm运用方法。batch_norm_params = { 'is_training': is_training, 'scale': True, # 默认是没有gamma的 'decay': 0.995, 'epsilon': 0.001 }with slim.arg_scope([slim.c

2020-09-08 15:16:56 2845

原创神经网络训练时如何选取batch size的大小

神经网络训练时如何选取batch size的大小做实验时batch size选取的128，设置每1000步模型保存一次。但发现训练到后面损失很难降低了。用batch size=32或64做实验，训练到后面，可以用较小的batch size，如32训练到后面，模型保存步数可以小一些。...

2020-09-07 10:24:56 5810 1

原创 Tensorflow ——分布式数据异步并行代码(单机多卡、多机多卡）

Tensorflow ——分布式数据异步并行代码(单机多卡、多机多卡）在分布式计算中创建Session需要用到MonitoredTrainingSession，区别于普通Session最主要的参数是is_chief。Session( target='', graph=None, config=None)MonitoredTrainingSession( master='', is_chief=True, checkpoint_dir=None, sca

2020-09-03 16:10:31 968

原创 Tensorflow分布式框架解决Graph is finalized and cannot be modified问题

Tensorflow分布式框架解决Graph is finalized and cannot be modified问题如果使用MonitoredTrainingSession创建Session，不需要再初始化变量，错误示例：while not sess.should_stop(): sess.run(tf.global_variables_initializer())并且注意也不能在MonitoredTrainingSession之后进行任何初始化操作，包括数据初始化或变量初始化（应该放

2020-09-03 14:57:23 3108

原创 TensorFlow. ——tf.data.Dataset读取数据代码

TensorFlow. ——tf.data.Dataset读取数据代码下面是tf.data.Dataset读取通用数据的基础代码。import tensorflow as tfclass TfDataDataset(object): """tf.data.Dataset读取数据方法""" def __init__(self, im_size): self._im_size = im_size def train(self, data, batch_s

2020-09-02 11:44:05 533

原创 TensorFlow. ——tf.train.queue读取数据代码

TensorFlow. ——tf.train.queue读取数据代码下面是tf.train.queue读取数据的基础代码，可以按需求补充和修改。import tensorflow as tfclass TfTrainQueue(object): """tf.train.queue读取数据方法""" def __init__(self, im_size): self._im_size = im_size def train(self, data, ba

2020-09-02 11:37:11 201

原创 Meta Learning ——MAML代码

Meta Learning ——MAML

2020-09-02 11:16:09 1566 2

sinat_28375239的博客