- 博客(44)
- 收藏
- 关注
翻译 斯坦福大学-自然语言处理入门 笔记 第六课 文本分类与朴素贝叶斯
一、文本分类任务概述1、应用领域归类垃圾邮件识别作者识别性别/年龄识别等等2、定义输入:一个文档d,一系列固定的类型C={c1,c2,…,cj}输出:预测类别c ∈ C3、分类方法手工规则:很精确但是代价很高监督机器学习:输入:一个文档d,一系列固定的类型C={c1,c2,…,cj},一个训练集包含m个样本,每个样本是手工标记的文档(d1,c1)…(dm,cm...
2018-10-16 23:42:22
793
翻译 斯坦福大学-自然语言处理入门 笔记 第五课 拼写纠正与噪音通道(Noisy Channel)
一、拼写纠正任务1、拼写任务发现拼写错误纠正拼写错误自动纠正给出纠正建议(一个词)给出纠正建议(一些词)2、拼写错误的类型拼写出来的不是单词(non-word spelling error):graffe→giraffe拼写出来的是另一个单词排字(Typographical )错误:three→there认知错误(同音异形):too→two3、拼写出来的...
2018-10-16 12:31:52
2840
2
翻译 斯坦福大学-自然语言处理入门 笔记 第四课 语言模型
一、介绍N-grams1、概率语言模型对每个句子给出一个概率,用以判断机器翻译中哪个句子是最佳的选择,拼写校准中哪个句子可能出现错误。目标:计算句子或者是一系列单词的概率P(W)=P(W1,W2,W3,W4,W5...Wn)P\left ( W \right )=P(W_{1},W_{2},W_{3},W_{4},W_{5}...W_{n})P(W)=P(W1,W2,W3,W4,...
2018-10-15 20:27:23
4906
翻译 斯坦福大学-自然语言处理入门 笔记 第三课 最小编辑距离
一、定义最小编辑距离1、最小编辑距离的用途拼写矫正用户输入graffe,那么哪一个是最接近的?graf?graft?grail?还是giraffe计算生物学用来校准核酸序列校准(alignment)结果同时也用于机器翻译,信息抽取等领域2、编辑距离两个字符串间最小的编辑距离就是将其中一个变成另外一个时需要的最小的编辑操作次数(操作包含插入、删除、替代)。举例...
2018-10-14 11:23:18
1204
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅