自然语言处理
文章平均质量分 51
Torero_lch
哎,工作在哪里
展开
-
n-gram模型中的平滑方法
当使用n-gram模型对测试语料中的句子进行评估时,如果句子中包含在训练集中未出现的n元语法,则计算出来句子出现的概率为0。例如上一篇博客语言模型和n元语法中的例子,此时用该模型来计算下面句子的概率:因此,必须分配给所有可能出现的字符串一个非零的概率值来避免这种错误的发生。 平滑技术(smoothing)就是用来解决此类问题,基本思想是“劫富济贫",即提高低概率,降低高概率。常见的有加1法...原创 2018-08-14 16:44:16 · 5463 阅读 · 0 评论 -
TextRNN
这篇是RNN类结构和其用于文本分类的学习总结;一、单向RNN结构:,权重矩阵U、V、W共享。二、双向RNN结构:,,仿照单向的写法也就是。从公式里也可以看出来,正向计算和反向计算不共享权值。三、长短时记忆网络LSTM结构:RNN神经元中只有这一计算,隐藏层的状态对短期的输入非常敏感,存在梯度消失和梯度爆炸的问题。有科学家提出LSTM解决了这个问题,原始的RNN神经元中只有一个隐...原创 2018-09-10 14:02:24 · 7686 阅读 · 0 评论 -
HAN
NAACL2016论文Hierarchical Attention Network for Document Classification利用分层的注意力机制来构建文本表示向量并用于分类任务,效果很好,作者个人主页http://www.cs.cmu.edu/~zichaoy/。HAN模型就是分层次的利用注意力机制来构建文本向量表示的方法。文本由句子构成,句子由词构成,HAN模型对应这个结构...原创 2018-09-10 14:04:33 · 2666 阅读 · 1 评论 -
感知机
感知机算法学习,笔试题里老考原创 2018-09-30 23:37:08 · 155 阅读 · 0 评论 -
K-means
K-means算法理解,聚类算法,一直没有看它,但笔试总会考到原创 2018-09-30 23:38:09 · 151 阅读 · 0 评论 -
Understanding the difficulty of training deep feedforward neural networks
Understanding the difficulty of training deep feedforward neural networks论文笔记原创 2018-10-01 20:28:42 · 293 阅读 · 0 评论 -
Conv-GRNN and LSTM-GRNN
EMNLP2015论文Document modeling with gated recurrent neural network for sentiment classification笔记原创 2018-09-26 23:13:54 · 1993 阅读 · 0 评论 -
决策树
决策树原创 2018-09-27 13:13:06 · 123 阅读 · 0 评论 -
SVM
SVM原创 2018-09-27 13:13:22 · 130 阅读 · 0 评论 -
seq2seq
seq2seq原创 2018-09-29 08:12:34 · 152 阅读 · 0 评论 -
多标签多分类总结
多标签多分类总结原创 2018-09-29 08:14:35 · 545 阅读 · 0 评论 -
文本分类方法总结
文本分类方法总结,优缺点,为什么原创 2018-09-29 08:17:17 · 489 阅读 · 0 评论 -
FM因子分解机
FM因子分解机原创 2018-10-10 10:32:46 · 243 阅读 · 0 评论 -
深度残差网络
深度残差网络原创 2018-10-10 13:52:39 · 242 阅读 · 0 评论 -
最大熵模型ME
最大熵模型ME原创 2018-10-10 16:20:35 · 411 阅读 · 1 评论 -
TextCNN
Kim 2014年论文Convolutional Neural Networks for Sentence Classification提出了用于文本分类的TextCNN模型。TextCNN描述:首先将句子转换成对应的词向量矩阵,然后通过不同尺寸的卷积核进行计算,类似ngram提取不同长度的文本特征,最后通过池化层和全连接层进行分类。1、设定句子截断长度,把一句话截断或补齐,再将词语转换成...原创 2018-09-06 17:43:46 · 686 阅读 · 0 评论 -
正则化
待填坑原创 2018-09-06 15:08:43 · 138 阅读 · 0 评论 -
Word2Vec理解
记录词语的一种分布式表示方法word2vec,论文Distributed Representations of Sentences and Documents,其中有两种常用的无监督模型CBOW和Skip-gram,大同小异,但思想其实是有监督的。关键在于似然函数的构造和训练的加速。一、CBOW已知当前词的上下文来预测当前词,如图Huffman树:带权路径长度最短的树,又称最优...原创 2018-09-03 18:03:28 · 393 阅读 · 0 评论 -
语言模型和n元语法
语言模型定义 语言模型用来构建字符串s的概率分布,即一个句子出现的概率。考虑句子中词语的联系,其句子出现的概率计算公式可以表示为:认为第i个词出现的概率是由前面i-1个历史词决定的,这里使用频率来估计概率(这种估计概率值的方法称为极大似然估计,MLE)。在这种情况下,当i较大时,i-1个历史词的组合方式就很多,我们必须考虑所有i-1个历史词的所有组合方式和出现情况。假设词汇集大小1...原创 2018-08-13 11:27:18 · 951 阅读 · 0 评论 -
K近邻(KNN)总结
1、简述一下KNN算法的原理。K近邻算法是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。2、KNN算法有哪些优点和缺点?优点:算法思想较简单,既可以做分类也可以做回归;可以用于非线性分类/回归;训练时间复杂度为O(n);对数据没有假设,对离群点不敏感;缺点:K计算量大;存在类别不平衡问题;需...原创 2018-08-27 15:00:18 · 720 阅读 · 0 评论 -
HMM隐马尔科夫模型
问题:讲讲HMM隐马尔科夫模型1、HMM是什么?1、隐马尔科夫模型是关于时序的概率模型,是由一个隐藏的马尔科夫链随机生成不可观测的随机状态序列,并由各个状态生成一个观测而产生观测随机序列的过程。 --《统计学习方法》cha10概念解释:马尔可夫链:一阶马尔可夫过程,即未来状态仅与当前状态有关,与过去无关。马尔可夫过程:状态间的转移仅依赖于前n个状态的过程。状态...原创 2018-08-23 12:36:05 · 456 阅读 · 0 评论 -
朴素贝叶斯推导和常见问题
1、讲讲朴素贝叶斯朴素贝叶斯是基于贝叶斯定理和特征条件独立假设的分类方法。2、朴素贝叶斯算法流程获取训练样本,确定特征属性; 对每个类别计算类各个类的类先验概率; 对每个特征计算分属于各个类别的类条件概率; 对于一个样本,计算每个类别的类条件概率和各特征的类先验概率乘积 以第4步值最大的类别作为样本的所属类别;其中,第2、3步时模型的训练阶段,第4、5步是应用阶段。3、N...原创 2018-08-30 17:00:13 · 2231 阅读 · 0 评论 -
HMM隐马尔科夫模型二--学习算法
2.3 HMM模型的学习上一篇博客HMM隐马尔科夫模型。2.3.1 监督学习方法已知观测序列和对应状态序列时,可以直接使用极大似然估计MLE估计HMM的参数A,B,Π。初始概率:S个样本中初始状态为i的频率。转移概率:观测概率:2.3.2 Baum-Welch算法Baum-Welch在很多地方又称前向-后向算法,一种用来学习HMM模型参数的方法。首先来看我们的问...原创 2018-08-24 11:42:37 · 584 阅读 · 0 评论 -
线性回归推导
问题:简述一下线性回归?1、什么是线性回归对于给定的数据集,试图学习一个线性模型(y=wx+b),以尽可能准确的预测实值标记。2、线性模型的假设很多模型都对数据进行了假设(KNN没有),线性模型的假设有:样本点的取值是没有测量误差的;线性,自变量x与因变量y之间是线性关系;随机干扰项/残差服从零均值,同方差的正态分布,即 为什么会有第三条假设, 在实际应用场景中,很...原创 2018-08-29 12:51:41 · 427 阅读 · 0 评论 -
逻辑回归推导
问题:讲讲逻辑回归1、什么是逻辑回归逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,达到将数据分类的目的。2、模型函数、目标函数和求解3、逻辑回归用于多分类有两种解决方法,训练k个LR;扩展为softmax回归。1、训练k个LR假设有k个类别,每次挑选一个类别,将其设定为正例,其他类别的样本全部设定为负例,训练出一个LR;然后选择不...原创 2018-08-29 17:15:46 · 564 阅读 · 0 评论 -
EM算法理解
问题:讲讲EM算法?1、什么是EM算法EM算法是用来估计含有隐变量的概率模型参数的方法。下面是个人的理解,算法就是确定一个解决问题的模型,而这个模型由各个参数决定,所以所谓的算法就是求解或估计出这些参数。当参数可以由观测到的数据直接估计出来时,用MLE等方法就可以解决,但有些对系统的状态和观测数据存在影响的东西(隐变量)不能被观察到时,就无法按照之前的方法求解。例如HMM模型中,如果仅...原创 2018-08-25 12:16:14 · 356 阅读 · 0 评论 -
生成模型和判别模型
待填原创 2018-08-25 12:19:41 · 115 阅读 · 0 评论 -
线性回归和逻辑回归常见问题
问题来源逻辑回归常见问题1.逻辑斯蒂回归推导2.简述一下线性回归3.为什么逻辑斯特回归中使用最大似然函数求得的参数是最优可能的参数值?最大似然估计的核心是让所采样的样本出现的概率最大,利用已知的样本情况,反推使其最有可能发生的模型参数。对于逻辑回归,样本已经采样了,使其发生概率最大才是符合逻辑的。4.逻辑回归是线性模型吗?逻辑回归是广义的线性模型,就是在线性回归基础上加了一...原创 2018-08-30 10:57:07 · 1585 阅读 · 0 评论 -
FastText
Facebook 2016发表的论文Bag of Tricks for Efficient Text Classification中提出了FastText模型,结构与word2vec中的CBOW十分相似,如下:将文本中的词语向量求平均得到文本的整体表示(隐藏层hidden),然后输入到一个线性分类器(文中用的是softmax)中进行分类。文中还提出了两个技巧,1、在隐藏层加入ngram...原创 2018-09-05 11:37:54 · 468 阅读 · 0 评论 -
Char-CNN
论文Character-level Convolutional Networks for Text Classification中提出了Char-CNN来做文本分类。Char-CNN首先制作字符表,对应把字符转换成one-hot向量,于是一个句子就转换成了字符one-hot向量构成的向量矩阵,然后经过多个卷积层、池化层和全连接层进行分类。个人感觉论文中对模型细节的描述实在太精简了,去翻了好...原创 2018-09-08 22:52:35 · 2641 阅读 · 1 评论 -
RCNN
中科院自动化所2015年发表在AAAI上的论文Recurrent Convolutional Neural Network for Text Classification中提出了RCNN。之前就看过来神的狗池历险记,不过那时还没开始接触NLP不知道来神是研究这个的,当看到论文作者时就惊呆了,赶紧去和博客进行对比,确认大神本人无疑了,果然厉害的人在哪都厉害(づ ̄ 3 ̄)づ,博客地址https://l...原创 2018-09-08 22:53:40 · 518 阅读 · 0 评论 -
End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures论文笔记
ACL2016论文End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures中提出了一种用于NER和NRC的端到端的联合模型,并在模型中融入了依存路径信息。这篇论文里涉及到的很多知识之前没关注到,在这里记录下来。1、端到端(end to end)没有找到官方解释,可以参考知乎里的问题,个人理解:端到...原创 2018-11-06 14:38:49 · 844 阅读 · 0 评论