NLP(一)使用jieba、pyltp、pkuseg、nltk分词

本文将介绍以下内容:

  • 使用 jieba 分词
  • 使用 pyltp 分词
  • 使用 pkuseg 分词
  • 使用 nltk 分词

通常,NLP无法一下子处理完整的段落或句子,因此,第一步往往是分句和分词。这里我们将介绍几种分词方法。

一,使用 jieba 分词

可参考我之前写过的文章:https://blog.csdn.net/TFATS/article/details/108810284

二,使用 pyltp 分词

可参考我之前写过的文章:https://blog.csdn.net/TFATS/article/details/108511408

三,使用 pkuseg 分词

可参考我之前写过的文章:https://blog.csdn.net/TFATS/article/details/108851344

四,使用 nltk 分词

nltk 工具一般在英文文本中作为词嵌入工具使用。这里只介绍 tokenize
方法,对于详细的使用方法可以参考:https://www.cnblogs.com/chen8023miss/p/11458571.html
http://www.pythontip.com/blog/post/10012/

注: 在安装nltk时可能会产生一些问题,可以参考我之前分享的文章: https://blog.csdn.net/TFATS/article/details/108519904

from nltk import word_tokenize

sent1 = "I love sky, I love sea."
sent2 = "I like running, I love reading."

sents = [sent1, sent2]
texts = [[word for word in word_tokenize(sent)] for sent in sents]

# ------ output------
[['I', 'love', 'sky', ',', 'I', 'love', 'sea', '.'], ['I', 'like', 'running', ',', 'I', 'love', 'reading', '.']]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值