最近迷上了AIGC,喜欢用各类的名词去测试生成一些图片,就想找一个名词库,找了半天好像没有特别合适的所以就打算自己清洗一份。
一、下载词库
首先初始的词库来源于牛津词典常用的五千个单词
这边可以看自己需求去选择
下载完成后是这样的
二、清洗词库
根据我自己的需求是获取名词,也就是在单词后为n.的单词
# 清洗单词
def clean_words(filepath, target_word):
result = []
with open(filepath, 'r') as file:
for line in file:
words = line.strip().split()
if len(words) > 1 and words[1] == target_word:
result.append(words[0])
return result
# 保存文件
def save_to_txt(words, filename):
with open(filename, 'w') as file:
for word in words:
file.write(word + '\n')
file_path = 'American_Oxford_5000.txt' # 清洗文件的路径
target_word = 'n.' # 清洗的单词词性
output_file = 'cleaned_n_words.txt' # 清洗后存储文件的路径
cleaned_words = clean_words(file_path, target_word) # 调用清洗方法
save_to_txt(cleaned_words, output_file) # 调用保存文件方法