NLP之替换不在词表中的分词为‘UNK‘

最新推荐文章于 2024-02-08 10:26:51 发布

LeBron Le

最新推荐文章于 2024-02-08 10:26:51 发布

阅读量1.3k

点赞数

分类专栏： Python 自然语言处理文章标签：自然语言处理 python 深度学习

本文链接：https://blog.csdn.net/hutianle/article/details/120479297

版权

Python 同时被 2 个专栏收录

13 篇文章 2 订阅

订阅专栏

自然语言处理

1 篇文章 0 订阅

订阅专栏

1. 问题描述
现在有一个词表，它是取分词后的语料，统计出现频率最高的300个（前300个）词构建的词表。现在要将分词后的语料进行替换，替换掉那些不在词表中的token为“UNK”，在词表中的则保持不变。
语料csv文件内容格式如下：

param	parsed	words
未正则化的原始语料	正则化并分词后的语料	查询词表后待生成的列

⭐2. 解决方法

# 根据第二列parsed，查询词表后，生成第三列words
def generate_words(col_parsed, evil_word_vocab):
	lst = []
	for i in col_parsed:
		words = []
		for j in i:
			if j in evil_word_vocab:
				words.append(j)
			else:
				words.append('UNK')
		lst.append(words)
		words = words.copy()
		words.clear()
	return lst

# 这里要用 tolist()方法 将词表中词那一列转化为列表
list_words = generate_words(evil['parsed'], evil_word_vocab['word'].tolist())

# 将新生成的word列添加到原csv文件中
evil['words'] = list_words

LeBron Le

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
NLP之替换不在词表中的分词为‘UNK‘

1. 问题描述现在有一个词表，它是取分词后的语料，统计出现频率最高的300个（前300个）词构建的词表。现在要将分词后的语料进行替换，替换掉那些不在词表中的token为“UNK”，在词表中的则保持不变。语料csv文件内容格式如下：paramparsedwords未正则化的原始语料正则化并分词后的语料查询词表后待生成的列⭐2. 解决方法# 根据第二列parsed，查询词表后，生成第三列wordsdef generate_words(col_parsed, evil_w
复制链接

扫一扫

专栏目录