NLP数据预处理

最新推荐文章于 2023-05-26 16:36:08 发布

LBWNB、

最新推荐文章于 2023-05-26 16:36:08 发布

阅读量558

点赞数

文章标签：自然语言处理 pytorch tensorflow

本文链接：https://blog.csdn.net/qq_38356492/article/details/110512483

版权

本文介绍了自然语言处理中预处理的重要步骤，包括构建词库、处理未知词汇，并以一个处理文本的类为例进行详细说明。

摘要由CSDN通过智能技术生成

前言

文本的常见格式是txt，我们需要把txt文件中的每一句话中的每一个单词提取出来建立词库。通常，建立三个字典：word->index, index->word, word->frequency.
此外，由于将来处理文本时会遇到不在词库中的单词，所以添加<unk>, <pad>, <EOS>, <BOS>等特殊词。

以下内容以建立一个处理文本的类为例。

from collections import defaultdict

UNK_TOKEN = '<unk>'
PAD_TOKEN = '<pad>'
BOS_TOKEN = '<s>'
EOS_TOKEN = '</s>'
DEFAULT_UNK_ID = lambda: 0


class Vocabulary:
	def __init__(self,file=None):
	'''
	file:预处理文件的路径
	'''
		#定义特殊字符
		self.specials = [UNK_TOKEN, PAD_TOKEN, BOS_TOKEN, EOS_TOKEN] 
		#初始化字典 word->index
		self.stoi = defaultdict(DEFAULT_UNK_ID)
		self.itos

最低0.47元/天解锁文章

LBWNB、

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLP数据预处理

前言文本的常见格式是txt，我们需要把txt文件中的每一句话中的每一个单词提取出来建立词库。通常，建立三个字典：word->index, index->word, word->frequency.此外，由于将来处理文本时会遇到不在词库中的单词，所以添加<unk>, <pad>, <EOS>, <BOS>等特殊词。以下内容以建立一个处理文本的类为例。from collections import defaultdictUNK_T
复制链接

扫一扫