抽取 - 使用 Python 和 NLTK 进行自然语言处理 第 6 页

自然语言处理教程:Python 中的 Chinking

本视频教程讲解了自然语言处理中“Chinking”的概念。Chinking 并非独立于 Chunking 存在,而是 Chunking 的一个延伸。

Chunking 的作用是将文本中特定类型的词语组合成块,例如将所有名词短语组合在一起。

Chinking 则是从已经 Chunking 好的文本中移除特定类型的词语,例如移除所有动词或介词。

视频中演示了如何使用 Python 代码进行 Chinking 操作。具体步骤如下:

  1. 定义 Chunk 规则: 使用正则表达式定义需要 Chunking 的词语类型,例如 .+ 表示任意词语。
  2. 定义 Chink 规则: 使用大括号 {} 包裹需要移除的词语类型,例如 {<VERB>+} 表示移除一个或多个动词。
  3. 执行 Chinking: 将 Chunk 规则和 Chink 规则结合使用,即可从 Chunked 文本中移除特定类型的词语。

视频中还展示了 Chinking 的实际应用场景,例如从文本中提取名词短语。

总结: Chinking 是 Chunking 的补充,通过移除特定类型的词语,可以更精确地提取文本中的信息。Chinking 在自然语言处理中是一个重要的技术,可以帮助我们更好地理解文本内容。

切分是使用 NLTK 进行自然语言处理的块划分过程的一部分。 切分指的是我们希望从块中移除的部分。 我们定义切分的的方式与定义块的方式非常相似。 你可能想要使用切分的原因是,当你的块划分器几乎得到了你想要的所有东西,但也选取了一些你不想的东西。 你可以继续添加块划分器规则,但仅仅指定一个切分来从块中移除可能要容易得多。 示例代码:http://pythonprogramming.nethttp://hkinsley.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sentdex

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值