自然语言处理
康雨城
Talk is cheap, show me the code
展开
-
Numpy常用函数的简单记录
Numpy是进行矩阵、向量相关计算的利器,一些相关操作记录原创 2019-11-06 17:27:20 · 240 阅读 · 0 评论 -
在“3_人民日报语料”中统计“日语借词”的词频;
在“3_人民日报语料”中统计“日语借词”的词频原创 2018-07-08 12:40:46 · 674 阅读 · 4 评论 -
去掉“3_人民日报语料”中每行前边的数字编号,改成“1, 2,......”
去掉“3_人民日报语料”中每行前边的数字编号,改成“1, 2,......”原创 2018-07-08 12:40:32 · 427 阅读 · 0 评论 -
统计“3_人民日报语料”文本中的字符数和词数,把文件分别保存为 ansi, UTF8,UTF16,unicode 格式
首先,统计文件的字符数,有两种方法。第一种是将文件复制到word中,word自动统计;第二种是在python中,将文本内容读取到字符串中,去除换行符和空格,字符串的长度就是字符的数目。然后统计文件中的单词数目,因为所给文件已经做好了分词处理,因此将文本读取到字符串中,用python中的split()函数将字符串转换成list,这样list的长度就是单词的数目。最后要做的是将文件转换成不同的编码,可以采用记事本、notepad++、sublime text等软件进行处理。原创 2018-07-08 12:40:00 · 925 阅读 · 0 评论 -
自动完形填空系统构建
在语义连贯的句子中去掉一个词语,形成空格,要求在给出的对应备选答案中,系统自动选出一个最佳的答案,使语句恢复完整。基于python2.7实现原创 2018-07-09 21:07:59 · 1721 阅读 · 0 评论 -
自然语言处理期末复习(3)-(5)模型与句法分析
第三部分 隐马尔科夫模型与词类标注1.定义:如果给定一个观察序列(不同颜色的小球序列),不能直接确定状态转换序列(坛子的序列),因为状态转移过程被隐藏起来了。所以这类随机过程被称为隐马尔科夫过程。 2.词类标注的方法:(1)基于规则的词类标注:查字典,给词标记所有可能,逐步删除错误的可能(2)基于隐马尔科夫模型的词类标注:词代表小球,标注代表坛子,相当于给了小球,求坛子(3)改进隐马尔科夫模型:b...原创 2018-06-20 00:17:46 · 2537 阅读 · 6 评论 -
自然语言处理期末复习(6)话题模型
一、LAS1.向量空间模型通过计算文档向量间的相似度来衡量两个文档之间的相关性,常用的相似度为(夹角)余弦相似度。2.LSA的核心在于将秩r的词项-文档矩阵C进行SVD分解,并寻求词项-文档矩阵的k秩逼近Ck 此时我们可以说,在进行潜在语义分析之前,文档被隐含表示成r维空间中的向量,而在潜在语义分析之后,文档被表示为k维空间中的向量,也就是潜在语义空间中的向量,向量的维数缩减为k维。维数k可以被解...原创 2018-06-19 09:29:39 · 1346 阅读 · 0 评论 -
自然语言处理期末复习(7)平行文本与机器翻译
一、平行文本的自动对齐1.按照语料库所涉语种,语料库可区分为(1)单语语料库 (2)多语语料库: 由多语平行文本组成2.双语对齐处理在两种语言文本的不同语言单位之间建立对应关系,确定源语言文本中哪个(些)语言单位和目标语言文本中哪个(些)语言单位互有翻译关系。3. 自动双语对齐处理指的是通过一定的算法,由计算机在双语文本间建立对齐关系。二、双语句子级对齐1.概念:在双语文本间建立句子一级的对齐关系...原创 2018-06-18 21:58:43 · 2351 阅读 · 0 评论 -
自然语言处理期末复习(2)中文分词
1.汉语分词:通过计算机程序把组成汉语文本的字串自动转换为词串的过程被称为自动切分2.汉语切分的原因:(1)语音的合成(2)信息检索(3)词语计量分析3.汉语分词基本方法:(1)基于词表的方法(2)字序列标记方法4.最大匹配法:(1) 正向最大匹配法(MM) 从左向右匹配词表(2) 逆向最大匹配法(RMM) 从右向左匹配词表5.歧义的类型(1)交集型歧义:AJ/B、A/JB交集型歧义字段中交集...原创 2018-06-17 20:40:55 · 1911 阅读 · 2 评论 -
自然语言处理期末复习(1)n元模型
一、n元模型1.语言建模:根据给定的语言样本估计概率P(s)的过程2.语言模型:根据语言样本估计出的概率分布P称为语言L的语言模型。3.马尔科夫假设:词wi 的出现只与其前n-1个词有关4.n元组(n-gram):只需要考虑n个词组成的片段。(n越大,模型需要的参数越多,历史信息越多,模型越准确)5.如何建立n元模型:确定训练语料、对预料进行分词、句子边界标记,增加两个特殊词。建立n元模型的方法:...原创 2018-06-17 19:35:09 · 2944 阅读 · 0 评论