自然语言处理技术
文章平均质量分 85
主要涉及机器学习,深度学习,推荐算法,以及自然语言处理等相关的算法和相关的技术介绍
lovive
这个作者很懒,什么都没留下…
展开
-
自然语言处理算法之集成算法基础以及boosting与bagging简介
在机器学习和统计学习中,集成学习(Ensemble Learning)是一种将多种学习算法组合在一起以取得更好表现的一种方法,机器学习下的集成学习主要是指有限的模型相互组合,而且可以有很多不同的结构,在自然语言处理过程中,特别是文本分类,很多时候集成学习的表现相对于其它的学习方法要好很多。1个体与集成集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等。如上原创 2018-01-18 09:43:32 · 1332 阅读 · 0 评论 -
自然语言处理之中文分词器详解
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,不同于英文的是,中文句子中没有词的界限,因此在进行中文自然语言处理时,通常需要先进行分词,分词效果将直接影响词性,句法树等模块的效果,当然分词只是一个工具,场景不同,要求也不同。在人机自然语言交互中,成熟的中文分词算法能够达到更好的自然语言处理效果,帮助计算机理解复杂的中文语言。1基于词典分词算法基于原创 2018-01-07 13:38:19 · 11205 阅读 · 0 评论 -
自然语言处理之中文分词器-jieba分词器详解及python实战
中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使用python实战介绍。jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登原创 2018-01-07 13:48:26 · 57099 阅读 · 4 评论 -
自然语言处理之seq2seq模型
对于一些自然语言处理任务,比如聊天机器人,机器翻译,自动文摘等,传统的方法都是从候选集中选出答案,这对素材的完善程度要求很高,随着最近几年深度学习的兴起,国外学者将深度学习技术应用与自然语言的生成和自然语言的理解的方面的研究,并取得了一些突破性的成果。转载 2017-12-01 21:11:04 · 34576 阅读 · 6 评论 -
自然语言处理模型之GRU和LSTM网络模型总结
前文中小修为大家介绍了自然语言模型中LSTM (Long Short-Term Memory)网络的性质,相对于递归神经网络,LSTM网络能够避因为梯度弥散而带来的长时间的信息丢失的问题。这里小修为大家介绍一种在LSTM基础上提出的GRU网络模型。LSTM和GRU (Gated Recurrent Unit)是在处理自然语言中非常流行的两种网络模型,小修根据最近几年的关于这方面的研究介绍一下两原创 2017-12-03 11:31:34 · 3731 阅读 · 0 评论 -
自然语言处理技术之准确率(Precision)、召回率(Recall)、F值(F-Measure)简介
下面简单列举几种常用的推荐系统评测指标:1、准确率与召回率(Precision & Recall)准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。一般来说,Precisio转载 2017-12-04 15:58:11 · 7130 阅读 · 1 评论 -
自然语言处理之维特比(Viterbi)算法
维特比算法 (Viterbi algorithm) 是机器学习中应用非常广泛的动态规划算法,在求解隐马尔科夫、条件随机场的预测以及seq2seq模型概率计算等问题中均用到了该算法。实际上,维特比算法不仅是很多自然语言处理的解码算法,也是现代数字通信中使用最频繁的算法。在介绍维特比算法之前,先回顾一下隐马尔科夫模型,进而介绍维特比算法的计算步骤。以下为一个简单的隐马尔科夫模型,如下图所示原创 2017-12-04 19:51:07 · 21303 阅读 · 2 评论 -
自然语言处理之文本标注问题
文本标注 (tagging) 是一个监督学习问题,可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测 (structure prediction) 问题的简单形式,标注问题的输入是一个观测序列,输出是一个标记序列护着状态序列,标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测,注意的是可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的原创 2017-12-05 14:45:07 · 12699 阅读 · 0 评论 -
word2vec 中的数学原理背景知识详解(1)
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读转载 2017-12-13 11:12:22 · 271 阅读 · 0 评论 -
word2vec模型中基于 Hierarchical Softmax 的CBOW和Skip-gram模型
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读转载 2017-12-13 11:32:02 · 486 阅读 · 0 评论 -
word2vec 中的数学原理详解:基于 Negative Sampling 的CBOW和Skip-gram模型
word2vec 是 Google 于 2013 年开源推出的一个用于获取 word vector 的工具包,它简单、高效,因此引起了很多人的关注。由于 word2vec 的作者 Tomas Mikolov 在两篇相关的论文 [3,4] 中并没有谈及太多算法细节,因而在一定程度上增加了这个工具包的神秘感。一些按捺不住的人于是选择了通过解剖源代码的方式来一窥究竟,出于好奇,我也成为了他们中的一员。读转载 2017-12-13 11:43:34 · 2904 阅读 · 0 评论 -
TensorFlow学习笔记(1):LSTM相关代码
LSTM是seq2seq模型中经典的子结构,TensorFlow中提供了相应的结构,供我们使用:tensorflow提供了LSTM实现的一个basic版本,不包含lstm的一些高级扩展,同时也提供了一个标准接口,其中包含了lstm的扩展。分别为:tf.nn.rnn_cell.BasicLSTMCell(), tf.nn.rnn_cell.LSTMCell()tensorflow原创 2017-12-13 14:28:34 · 674 阅读 · 0 评论 -
TF-IDF原理详解以及python实践
TF-IDF(termfrequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关原创 2017-12-25 11:59:18 · 9313 阅读 · 0 评论