import json
import re
def is_fullwidth(text):
full_width_digits = '[\uFF10-\uFF19]'
full_width_uppercase_letters = '[\uFF21-\uFF3A]'
full_width_lowercase_letters = '[\uFF41-\uFF5A]'
regex_pattern = f"{full_width_digits}|{full_width_uppercase_letters}|{full_width_lowercase_letters}"
match_results = re.findall(regex_pattern, text)
if len(match_results) > 0:
return True
else:
return False
def check(data):
for key, value in data.items():
if is_fullwidth(str(value)):
return False
return True
input_file = ''
output_file = ''
# 逐行读取JSON文件,并保存为JSONL文件
total = 0
import json
# 打开原始JSON文件和目标文件
with open(input_file, 'r',encoding='utf-8') as file_in, open(output_file, 'a',encoding='utf-8') as file_out:
# 逐行读取原始JSON文件
for line in file_in:
# 解析JSON数据
data = json.loads(line)
# 在这里可以对数据进行处理或操作
# 将数据写入目标文件
if check(data):
json.dump(data, file_out,ensure_ascii=False)
file_out.write('\n') # 写入换行符,保持每行一个JSON对象
file_out.flush()
else:
total+=1
print(total)
针对JSON文件中是否含有全角数据 去除全角数据
最新推荐文章于 2024-10-01 20:12:28 发布