自然语言处理-chapter(1)--字符串操作

最新推荐文章于 2023-07-23 22:42:48 发布

<-krush->

最新推荐文章于 2023-07-23 22:42:48 发布

阅读量386

点赞数

分类专栏： >> NLP杂谈文章标签：自然语言处理 Python

本文链接：https://blog.csdn.net/qq_33592583/article/details/79430852

版权

>> NLP杂谈专栏收录该内容

4 篇文章 0 订阅

订阅专栏

精通自然语言处理-chapter(1)–字符串操作

首先安装nltk包 sudo pip install nltk

安装完毕后进入终端下载nltk 数据源

 >>>  import nltk
 >>>  nltk.download()

给定文本切分为语句

>>> import nltk
>>> from nltk.tokenize import sent_tokenize
>>> text='Welcome to my home'
>>> sent_tokenize(text)
['Welcome to my home']

其他语言文本的切分

>>> import nltk
>>> french_tokenizer=nltk.data.load('tokenizers/punkt/french.pickle')
>>> french_tokenizer.tokenize('Deux agressions en quelques jours,voila ce qui a')
['Deux agressions en quelques jours,voila ce qui a']

将句子切分为单词

>>> import nltk
>>> text=nltk.word_tokenize("Peter,59 years old, will join as a nonexecutive director on Nov. 29.>>")
>>> print(text)
['Peter,59', 'years', 'old', ',', 'will', 'join', 'as', 'a', 'nonexecutive', 'director', 'on', 'Nov.', '29', '.', '>', '>']

分词器的继承树如下所示(部分):

这里写图片描述

使用TreebankWordTokenizer 执行切分

>>> import nltk
>>> from nltk.tokenize import TreebankWordTokenizer
>>> tokenizer=TreebankWordTokenizer()
>>> tokenizer.tokenize("Have a nice day.I hope you find the book interesting")
['Have', 'a', 'nice', 'day.I', 'hope', 'you', 'find', 'the', 'book', 'interesting']

使用正则表达式实现切分

>>> import nltk
>>> from nltk.tokenize import regexp_tokenize
>>> sent="Don't hesitate to ask questions"
>>> print(regexp_tokenize(sent,pattern='\w+|$[\d\.]+|\S+'))
['Don', "'t", 'hesitate', 'to', 'ask', 'questions']

 使用空格进行切分
>>> import nltk
>>> from nltk.tokenize import RegexpTokenizer
>>> tokenizer=RegexpTokenizer('\s',gaps=True)
>>> tokenizer.tokenize("Don't hesitate to ask questions")
["Don't", 'hesitate', 'to', 'ask', 'questions']

筛选大写字母开头的单词
>>> import nltk
>>> from nltk.tokenize import RegexpTokenizer
>>> sent="She is a girl.She is Good"
>>> capt=RegexpTokenizer('[A-Z]\w+')
>>> capt.tokenize(sent)
['She', 'She', 'Good']

标识符在语句中的位置和偏移量 使用nltk.tokenize.util模块
>>> import nltk
>>> from nltk.tokenize import WhitespaceTokenizer
>>> sent=' She is good\n'
>>> list(WhitespaceTokenizer().span_tokenize(sent))
[(1, 4), (5, 7), (8, 12)]

给定标识符序列 返回其跨度序列
>>> import nltk
>>> from nltk.tokenize import WhitespaceTokenizer
>>> from nltk.tokenize.util import spans_to_relative
>>> sent=" She is a good girl\n" 
>>> list(spans_to_relative(WhitespaceTokenizer().span_tokenize(sent)))
[(1, 3), (1, 2), (1, 1), (1, 4), (1, 4)]

<-krush->

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理-chapter(1)--字符串操作

精通自然语言处理-chapter(1)–字符串操作首先安装nltk包 sudo pip install nltk 安装完毕后进入终端下载nltk 数据源 &gt;&gt;&gt; import nltk &gt;&gt;&gt; nltk.download() 给定文本切分为语句 &gt;&gt;&gt; import nltk...
复制链接

扫一扫

专栏目录