自然语言处理
记录学习过程~
cantaloupeJinJin
这个作者很懒,什么都没留下…
展开
-
Noisy channel model and POS tagging
Noisy channel model and POS tagging一、Noisy Channel Model很多问题涉及根据数据X预测标签Y,比如:语音识别,机器翻译(X是源语言,Y是目标语言),拼写纠错(X是带有拼写错误的源文件,Y是无拼写错误的目标文件),密码破解等假定现在我们可以估计.然后我们可以计算引入Noisy Channel Model此处通过使用贝...原创 2019-11-10 22:36:15 · 344 阅读 · 0 评论 -
平滑方法
在自然语言处理中,经常会遇到要计算单词或者句子在词典或文档中出现的频次,但是会存在某个单词在词典中没有出现的情况,计算时概率为0,为了改善这种情况,人们提出的平滑方法。1、Add-one Smoothing(Laplace Smoothing)2、Add-k Smoothing3、Interpolation4、Good-Turning Smoothing以Bigram为例。...原创 2019-11-03 12:33:16 · 1195 阅读 · 0 评论 -
倒排索引(Inverted Index)
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。(百度百科)给定如下几个文档,文档内容分别如下:Doc1:今天出去玩 Doc2:今天天气不错 Doc3:心情不错...原创 2019-11-03 10:57:13 · 741 阅读 · 1 评论 -
中文单词的表示以及相似度计算方法
词的独热表示(one-hot representation)boolean representation count representation给定一个词典:[我,是,计算机专业,的,学生]1、求给定单词的表示: 我:[1,0,0,0,0] 计算机专业:[0,0,1,0,0] 学生:[0,0,0,0,1...原创 2019-10-20 15:12:43 · 1593 阅读 · 0 评论 -
中文分词-前向最大匹配和后向最大匹配
例子:sentence = "我是一名计算机专业的学生"词典:["我", "是", "一", "一名", "计算机", "的", "学生", "专业"]前向最大匹配给定max_length = 5首先判断word = “我是一名计”,是否在词典中,不在,word减去右边一个词,word =“我是一名”,继续判断word是否在词典中,不在,word减去右边一个词,word =...原创 2019-10-19 23:14:59 · 1173 阅读 · 0 评论 -
《统计学习方法》第一版袁春老师PPT课件
课件下载地址传送门,ps:是pdf版本http://www.sz.tsinghua.edu.cn/fg3/105064.jhtml原创 2019-06-02 14:58:04 · 3760 阅读 · 1 评论