NLP
Katherine_C_nlp
这个作者很懒,什么都没留下…
展开
-
word2vec行为序列建模简述
word2vec是一个无监督算法,广泛用于NLP领域中,但是其整体的向量化思路是可以用与其他序列问题中的。word2vec适合的情况就是对于一个序列的数据,在序列局部数据间存在着很强的关联。文本中邻近的词之间关联很强,一个词语的含义可以由其上下文直接推断出来,所以在文本中应用较广泛。近些年来,一些研究者发现,在线用户行为的时间序列数据同样也可以起到上下文的作用,即当用户浏览并和不同内容进行交互时,...原创 2018-08-09 16:22:23 · 5065 阅读 · 0 评论 -
LR详解
对于文本分类这个经典问题,很多传统机器学习的算法都是适用的,比如说逻辑回归(LR)的表现就很优秀。在用LR进行文本分类的时候,最主要的是如何解决特征之间的非线性关系。所谓的非线性关系是指,一个特征和另外特征相关,而且为非线性的关系。举个简单的例子,就是线性关系,而就是非线性关系。对于这个问题的解决主要有以下几个方式:多元特征模型、boosting、nb-norm、去除非线性特征。照例还是先从原...原创 2018-08-06 21:19:31 · 1319 阅读 · 0 评论 -
word2vec详解
在NLP领域里,将一个单词用一个有限维的向量表示基本上已经成为现在进行文本处理的一个标配步骤。在word2vec这个神器出现以前,比较通用的解决步骤是WordNet,可以认为它是一个类似词典一样的存在,查每个词对应的同义词、上位词等信息,好虽好,但是需要人工维护,而且缺乏对词语新的含义的挖掘,不能做到实时更新,虽然能够找到一个词的同义词,但是词之间的相似度到底有多高这个指标很难度量。传统one-h...原创 2018-08-09 14:07:46 · 840 阅读 · 0 评论 -
NB以及其在工程上的一些应用
贝叶斯算法算是一个非常非常老的一个算法了,工业界用到这个算法运用最多的场景是NLP的分类问题。这个算法很简单,好理解,可解释性很强,比如说是见到了哪些词才做出了这样的判定。这个算法通常需要大量的数据,也就是说需要有足够大的训练语料。简要说一下贝叶斯公式,很easy的。P(Y, X) = P(X| Y)P(Y) = P(Y|X)P(X)。这里一般来说,X是某些特征,Y为属于某类,就是类别标签。P...原创 2018-08-16 09:45:10 · 435 阅读 · 0 评论 -
最大熵模型详解
最大熵模型可用于自然语言处理中歧义消解的问题,再有就是《数学之美》中很经典的拼音转汉字问题、词性标注、句法分析、机器翻译等相关任务中也有相应的应用场景。这个模型可以将各种信息整合到一个统一的模型中,是唯一一种既可以满足各个信息源的限制条件,同时又能保证平滑性的模型。最大熵模型是由最大熵原理推到得来的,在正式了解最大熵模型之前,很有必要理解最大熵原理。 所谓的最大熵原理就是说,鸡蛋不要放在一...原创 2018-08-13 11:08:40 · 1764 阅读 · 0 评论 -
LDA模型详解
LDA是自然语言处理中非常常用的一个主题模型,全称是隐含狄利克雷分布(Latent Dirichlet Allocation),简称LDA。作用是将文档集中每篇文档的主题以概率分布的形式给出,然后通过分析分到同一主题下的文档抽取其实际的主题(模型运行结果就是一个索引编号,通过分析,将这种编号赋予实际的意义,通常的分析方法就是通过分析每个topic下最重要的term来进行总结归纳),根据主题分布进行...原创 2018-08-14 14:26:06 · 43586 阅读 · 7 评论