torchtext.data.utils

最新推荐文章于 2024-07-26 18:34:32 发布

HMTT

最新推荐文章于 2024-07-26 18:34:32 发布

阅读量644

点赞数

分类专栏： # torchtext 文章标签：自然语言处理 python pytorch

本文链接：https://blog.csdn.net/qq_42464569/article/details/120791006

版权

torchtext 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

get_tokenizer(tokenizer, language=‘en’)

功能：使用分词器对句子进行分词。

参数：

tokenizer：分词器名称。

如果传入None，功能相当于simple_space_split()，不会分割标点符号。

如果传入"basic_english"，则会将字母转为小写并按空格分割，会分割标点符号。

如果传入可调用函数，则会调用并返回相应结果。

如果传入分词库名称，则会返回相应的结果，分词库有spacy、moses、toktok、revotk，subword等。
language：语言名称，默认为en。

示例：

import torchtext
from torchtext.data.utils import get_tokenizer

# 传入None
tokenizer = get_tokenizer(None)
tokens = tokenizer("You can,\t\tnow\n\ninstall TorchText using pip!!!")
print(tokens)

# 传入"basic_english"
tokenizer = get_tokenizer("basic_english")
tokens = tokenizer("You can,\t\tnow\n\ninstall TorchText using pip!!!")
print(tokens)

# 传入可调用函数
def mySplit(text:str):
    return text.split(" ")

tokenizer = get_tokenizer(mySplit)
tokens = tokenizer("You can,\t\tnow\n\ninstall TorchText using pip!!!")
print(tokens)

# 传入分词库名称
tokenizer = get_tokenizer("moses")
tokens = tokenizer("You can,\t\tnow\n\ninstall TorchText using pip!!!")
print(tokens)

示例结果：

['You', 'can,', 'now', 'install', 'TorchText', 'using', 'pip!!!']
['you', 'can', ',', 'now', 'install', 'torchtext', 'using', 'pip', '!', '!', '!']
['You', 'can,\t\tnow\n\ninstall', 'TorchText', 'using', 'pip!!!']
['You', 'can', ',', 'now', 'install', 'TorchText', 'using', 'pip', '!', '!', '!']

ngarms_iterator(token_list, ngrams)

功能：生成ngram词袋分词。

参数：

token_list：分词结果列表。
ngrams：词袋大小

示例：

import torchtext
from torchtext.data.utils import get_tokenizer, ngrams_iterator

tokenizer = get_tokenizer("basic_english")
tokens = tokenizer("You can\t\tnow")

list(ngrams_iterator(tokens, 3))

示例结果：

['you', 'can', 'now', 'you can', 'can now', 'you can now']

HMTT

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录