NLP（一）使用jieba、pyltp、pkuseg、nltk分词

最新推荐文章于 2021-02-27 23:12:45 发布

TFATS

最新推荐文章于 2021-02-27 23:12:45 发布

阅读量781

点赞数 1

分类专栏： nlp 文章标签： nlp

本文链接：https://blog.csdn.net/TFATS/article/details/108800919

版权

nlp 专栏收录该内容

60 篇文章 16 订阅

订阅专栏

本文将介绍以下内容：

使用 jieba 分词
使用 pyltp 分词
使用 pkuseg 分词
使用 nltk 分词

通常，NLP无法一下子处理完整的段落或句子，因此，第一步往往是分句和分词。这里我们将介绍几种分词方法。

四，使用 nltk 分词

nltk 工具一般在英文文本中作为词嵌入工具使用。这里只介绍 tokenize
方法，对于详细的使用方法可以参考：https://www.cnblogs.com/chen8023miss/p/11458571.html
http://www.pythontip.com/blog/post/10012/

注：在安装nltk时可能会产生一些问题，可以参考我之前分享的文章： https://blog.csdn.net/TFATS/article/details/108519904

from nltk import word_tokenize

sent1 = "I love sky, I love sea."
sent2 = "I like running, I love reading."

sents = [sent1, sent2]
texts = [[word for word in word_tokenize(sent)] for sent in sents]

# ------ output------
[['I', 'love', 'sky', ',', 'I', 'love', 'sea', '.'], ['I', 'like', 'running', ',', 'I', 'love', 'reading', '.']]