Python自然语言处理中文版-学习笔记

第 1 章 语言处理与 Python

  1. 频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频率)。
  2. 自然语言处理研究的一个重要目标一直是使用浅显但强大的技术代替无边无际的知识和推理能力,促进构建“语言理解”技术的艰巨任务的不断取得进展。
  3. 给出一个德文和英文双语的文档或者一个双语词典,我们就可以自动配对组成句子,这个过程叫做文本对齐。
  4. 离散图中每一个竖线代表一个单词,每一行代表整个文本。
  5. 一个词类型是指一个词在一个文本中独一无二的出现形式或拼写。
  6. 程序设计的一个关键特征是让机器能按照我们的意愿决策,遇到特定条件时执行特定命令,或者对文本数据从头到尾不断循环遍历直到条件满足。
  7. 自动消除歧义需要使用上下文,利用相邻词汇有相近含义这样一个简单的事实。

第 2 章 获得文本语料和词汇资源

博客:NLP学习路线总结

自然语言处理怎么最快入门?

  1. 把就职演说语料库当作一个单独的文本对待,实际上是 55 个文本的集合,每个文本都是一个总统的演说。这个集合的一个有趣特性是它的时间维度。
  2. 许多文本语料库都包含语言学标注,有词性标注、命名实体、句法结构、语义角色等。
  3. 条件频率分布是频率分布的集合,每个频率分布有一个不同的“条件”。
  4. 一个词项包括词 目(也叫词条)以及其他附加信息&
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值