自然语言处理教程:Python 中的 Chinking
本视频教程讲解了自然语言处理中“Chinking”的概念。Chinking 并非独立于 Chunking 存在,而是 Chunking 的一个延伸。
Chunking 的作用是将文本中特定类型的词语组合成块,例如将所有名词短语组合在一起。
Chinking 则是从已经 Chunking 好的文本中移除特定类型的词语,例如移除所有动词或介词。
视频中演示了如何使用 Python 代码进行 Chinking 操作。具体步骤如下:
- 定义 Chunk 规则: 使用正则表达式定义需要 Chunking 的词语类型,例如
.+
表示任意词语。 - 定义 Chink 规则: 使用大括号
{}
包裹需要移除的词语类型,例如{<VERB>+}
表示移除一个或多个动词。 - 执行 Chinking: 将 Chunk 规则和 Chink 规则结合使用,即可从 Chunked 文本中移除特定类型的词语。
视频中还展示了 Chinking 的实际应用场景,例如从文本中提取名词短语。
总结: Chinking 是 Chunking 的补充,通过移除特定类型的词语,可以更精确地提取文本中的信息。Chinking 在自然语言处理中是一个重要的技术,可以帮助我们更好地理解文本内容。
切分是使用 NLTK 进行自然语言处理的块划分过程的一部分。 切分指的是我们希望从块中移除的部分。 我们定义切分的的方式与定义块的方式非常相似。 你可能想要使用切分的原因是,当你的块划分器几乎得到了你想要的所有东西,但也选取了一些你不想的东西。 你可以继续添加块划分器规则,但仅仅指定一个切分来从块中移除可能要容易得多。 示例代码:http://pythonprogramming.nethttp://hkinsley.com