时隔n个月后回归!人工智能大作业突然布置了分词,想想去年没有完成的主观题批改项目,留下了不学无术的泪水(本来有无数个作业能拿这个冒充的呜呜呜)。
什么是NLP
😈 自然语言和编程语言
看见这个标题就想起来上学期学离散中形式化语言的痛苦经历,编程语言其实已经把自然语言变成了一个符号集合,但是自然语言很麻烦啊,我连英语都学不会!但是现在我们要教计算机学会自然语言
一听就觉得非常复杂对不对!但AI的关键在于将问题转换为数学模型,用数学的方法去解决,让我们揭秘魔法的真相吧!
😈NLP=NLU+NLGunderstanding+generation NLP不仅要理解,还要对内容进行反应
用户意思->机器理解->形成反馈
😈为什么NLP是人工智能中皇冠上的明珠?
将计算机视觉和NLP进行对比,所见即所得和获取知识后需要理解完全是两个level啊!NLP就是难啊,学会了我就超级厉害啊!
😈技术引入
- 一词多义,利用上下文判断意思,利用一般情况的出现频率判断意思
- 机器翻译系统
机器翻译系统案例分析
😈case study
已知12对翻译对,求翻译最上边那句话(密室逃脱既视感,在写这段话的时候中了一张剧本杀免单券!)
思路分析:
- 在句子中找到所有包含该单词的句子,通过统计分析得到结果
- 缺点:速度慢,缺少语义,语法,上下文分析,仅是简单的一一对应
统计型机器翻译
中文-->中文分词-->根据词序列逐个翻译( **translation model词典模型**)-->broken English-->根据算法进行词排序(暴力排序!)-->选择最优排序(将排序放入模型,计算每个句子成立的概率,Language Model判断说的是不是人话 )–>得出翻译结果
缺点分析:计算量非常大啊,这单词的全排列,NP问题啊,电脑连翻译100个单词的句子都要崩溃,算法的魅力就在这里体现,我们能通过算法解决这么大的计算量!算法改进: 现在我们将两个步骤合并在一起,成为维特利算法(DP动态规划)
😈语言模型
根据词语顺序的情况给出每种情况之间有序的概率
我们需要大量训练集去计算每个分支概率的值
这种概率计算其实也影响了推荐系统,推荐系统也会根据历史记录推荐商品,有些遥远的事件对于今天发生的事件无关。
NLP的应用场景
😈QA(问答系统)
😈情感系统
😈信息抽取(也是这次我要做的东西,冲冲冲)
。。。
NLP的关键技术
😈NLP的四个维度
(声音–>)单词–>句子结构–>语义
声音那部分在语音识别中可能用到