NLP学习(1) 概论

教程: https://www.bilibili.com/video/BV1YK4y1875p

统计机器翻译

传统模型

中文,C
步骤1
Broken English
步骤2
英语,E

总目标: max ⁡ E P ( e ∣ c ) \max\limits _E P(\bold{e}|\bold{c}) EmaxP(ec)

步骤1:Translation Model

将中文分词,然后把每个词语翻译成英文

max ⁡ e P ( c ∣ e ) \max\limits_\bold{e} P(\bold{c}|\bold{e}) emaxP(ce)

步骤2: Language Model

找到概率最大的词语序列

max ⁡ e P ( e ) \max\limits_\bold{e} P(\bold{e}) emaxP(e)

解码模型: Decoding

维特比解码可以直接计算 argmax e P ( e ) ⋅ P ( c ∣ e ) \mathop{\text{argmax}}\limits_\bold{e} P(\bold{e})\cdot P(\bold{c}|\bold{e}) eargmaxP(e)P(ce)

语言模型
概率计算

Uni-gram: P ( e ) = P ( [ e 1 , e 2 , … , e n ] ) = P ( e 1 ) P ( e 2 ) … P ( e n ) P(\bold{e})=P([e_1,e_2,\dots,e_n])=P(e_1)P(e_2)\dots P(e_n) P(e)=P([e1,e2,,en])=P(e1)P(e2)P(en)

Bi-gram: P ( e ) = P ( [ e 1 , e 2 , … , e n ] ) = P ( e 1 ) P ( e 2 ∣ e 1 ) … P ( e n ∣ e n − 1 ) P(\bold{e})=P([e_1,e_2,\dots,e_n])=P(e_1)P(e_2|e_1)\dots P(e_n|e_{n-1}) P(e)=P([e1,e2,,en])=P(e1)P(e2e1)P(enen1)

Tri-gram: P ( e ) = P ( e 1 ) P ( e 2 ∣ e 1 ) P ( e 3 ∣ e 1 , e 2 ) … P ( e n ∣ e n − 1 , e n − 2 ) P(\bold{e})=P(e_1)P(e_2|e_1)P(e_3|e_1, e_2)\dots P(e_n|e_{n-1},e_{n-2}) P(e)=P(e1)P(e2e1)P(e3e1,e2)P(enen1,en2)

上面这些都是马尔科夫假设, 是对联合概率的简化.

联合概率: P ( e ) = P ( e 1 ) P ( e 2 ∣ e 1 ) … P ( e n ∣ e 1 , e 2 , … e n − 1 ) P(\bold{e})=P(e_1)P(e_2|e_1)\dots P(e_n|e_1, e_2, \dots e_{n-1}) P(e)=P(e1)P(e2e1)P(ene1,e2,en1)

在计算时一般计算 log ⁡ P ( e ) \log P(\bold{e}) logP(e)避免溢出

自然语言处理技术4个维度

声音 Phonetics
单词 Morphology
例如: 分词, 词性, NER
句子结构 Syntax
例如: 依存分析
语义 Semantic

mermaid 在线编辑器: https://mermaid-js.github.io/mermaid-live-editor

NLP面试会考手推逻辑回归

一篇ACL, BAT基本不用愁了

问答系统的基本流程

计算句子相似度
embedding distance
Cosine distance
文本表示
one-hot
词袋
TF-IDF
Word2vec
预处理
拼写检查
停用词
同义词
分词
句子排序
句子过滤
返回结果
问答系统关键方法
  • 文本表示
  • 文本相似度
知识图谱关键方法
  • 实体抽取
  • 关系抽取
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值