利用NLTK进行分句分词

最新推荐文章于 2023-04-11 03:24:59 发布

JOY酷酷

最新推荐文章于 2023-04-11 03:24:59 发布

阅读量2.3w

点赞数 3

分类专栏： NLP

本文链接：https://blog.csdn.net/baidu_27438681/article/details/60468848

版权

NLP 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1.输入一个段落，分成句子（Punkt句子分割器）

import nltk
import nltk.data

def splitSentence(paragraph):
    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
    sentences = tokenizer.tokenize(paragraph)
    return sentences

if __name__ == '__main__':
    print splitSentence("My name is Tom. I am a boy. I like soccer!")

结果为['My name is Tom.', 'I am a boy.', 'I like soccer!']

2.输入一个句子，分成词组

from nltk.tokenize import WordPunctTokenizer  

def wordtokenizer(sentence):
    #分段
    words = WordPunctTokenizer().tokenize(sentence)
    return words

if __name__ == '__main__':
    print wordtokenizer("My name is Tom.")

结果为['My', 'name', 'is', 'Tom', '.']

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

JOY酷酷

关注关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
利用NLTK进行分句分词

1.输入一个段落，分成句子（Punkt句子分割器）import nltkimport nltk.datadef splitSentence(paragraph): tokenizer = nltk.data.load('tokenizers/punkt/english.pickle') sentences = tokenizer.tokenize(paragraph)
复制链接

扫一扫