自然语言处理
文章平均质量分 65
JepsonWong
专注计算机底层,喜欢算法。
展开
-
N-gram 语言模型
n 元文法(n-gram)模型。通常地,当n=1时,即出现在第i位上的基元wi独立于历史;一元文法也被写为uni-gram或monogram。当 n=2 时,2-gram(bi-gram) 被称为1阶马尔可夫链。当 n=3 时,3-gram(tri-gram)被称为2阶马尔可夫链。依次类推。为了保证条件概率在 i=1 时有意义,同时为了保证句子内所有字符串的概率和为 1,即可以原创 2017-03-24 17:12:26 · 1756 阅读 · 0 评论 -
神经网络语言模型
基于计数的n-gram语言模型:出现的问题:(1)数据稀疏,有些数据未出现过(2)忽略语义的相关性,如“无聊”与“枯燥”虽然语义相似,但无法共享信息。词语表示为:one-hot表示法。基于分布式表示的n-gram语言模型:出现的问题:(1)词向量:如何将每个词映射到实数向量空间中的一个点(2)f函数的设计:设置什么样的神经网络结构模拟f函数词语表示为:基原创 2017-03-24 17:13:47 · 1029 阅读 · 0 评论 -
结巴分词--词性标注
1、简介词性(part-of-speech)是词汇基本的语法范畴,通常也称为词类,主要用来描述一个词在上下文的作用。例如,描述一个概念的词就是名词,在下文引用这个名词的词就是代词。有的词性经常会出现一些新的词,例如名词,这样的词性叫做开放式词性。另外一些词性中的词比较固定,例如代词,这样的词性叫做封闭式词性。因为存在一个词对应多个词性的现象,所以给词准确地标注词性并不是很容易。例如,“改革”在原创 2017-06-20 10:28:06 · 8824 阅读 · 0 评论