NLP(1) intro

introduction

NLP=NLU+NLG
U understanding G generation

why nlp is harder than computer vision?
CV 所见即所得
文本->meaning

challenge: multiple ways to express the same meaning

ambiguity 一词多义
(1)how to solve ambiguity? learn from data 概率 语境
(2)data->更新认知

statistical machine translation

中文->分词->词典statistical analysis->broken english->按照一定算法变成英语

如何判断最合适的句子?
Language Model 判断你说的话有多大概率是人话

summary translation model + language model
O(2^n) NP hard级别

因此引入decoding 算法
Viterbi 算法 本质是DP动态规划

目标 maxEnglishP(English|Chinese)

其中translation model P(C|E)
language model P(E)

因此decoding algorithm 目标argmaxEnglishP(e)*P(c|e)
传统机器翻译
语言模型 N-gram model
N 意味着考虑前面n个和后面n个词的概率 马尔克夫-assumption 把过去很长时间的影响近似到较短时间的影响

NLP的应用场景

问答系统
方法1 基于检索的方法 根据语料库进一步处理。。。

情感分析
可能是NLP最早的落地应用

机器翻译 seq2seq

自动摘要 Text Summarization

聊天机器人

信息抽取 从非结构化文本中抽取结构化信息,使用领域最大的地方

NLP 关键技术

Semantic(语义分析) NLU 核心用来理解语言,最上层
Syntax(句子结构) 包括句法分析等内容->依赖语言 依存分析Dependency
Morphology->单词层面的技术 分词、POS词性标注、NER命名实体识别
Phonetics

Word Segmentation
Part of speech词性分析<— 特征分析中很重要
Named Entity Recognition

知识图谱价值在于把数据源窜起来,在上层进行应用

Parsing 句法分析 CYK算法
Dependency Parsing 依存分析 判断两两之间是否有关系
Relation Extraction 关系抽取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值