数据集的预处理（词替换、多余符号与空格正则化去除）——读取json数据集以及预处理之后再生成json文件的代码

智商25的憨憨

于 2020-06-05 20:45:32 发布

阅读量621

点赞数

分类专栏：机器学习代码

本文链接：https://blog.csdn.net/gxc19971128/article/details/106577845

版权

本文展示了如何对大型数据集进行预处理，包括词替换、多余符号和空格的正则化去除。通过读取JSON数据集并进行处理，最终将清洗后的数据保存为新的JSON文件。

摘要由CSDN通过智能技术生成

数据集较为庞大，这里只做一个示例

import codecs
import re
import json
with open('train_pub.json','rb') as f:
    datatrain = json.load(f)
# 数据预处理

# 预处理名字
def precessname(name):
    name = name.lower().replace(' ', '_')
    name = name.replace('.', '_')
    name = name.replace('-', '')
    name = re.sub(r"_{2,}", "_", name)
    return name

# 预处理机构,简写替换，
def preprocessorg(org):
    if org != "":
        org = org.replace('Sch.', 'School')
        org = org.replace('Dept.', 'Department')
        org = org.replace('Coll.', 'College')
        org = org.replace('Inst.', 'Institute')
        org = org.replace('Univ.', 'University')
        org = org.replace('Lab ', 'Laboratory ')
        org = org.replace('Lab.', 'Laboratory'

最低0.47元/天解锁文章

智商25的憨憨

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据集的预处理（词替换、多余符号与空格正则化去除）——读取json数据集以及预处理之后再生成json文件的代码

数据集较为庞大，这里只做一个示例import codecsimport reimport jsonwith open('train_pub.json','rb') as f: datatrain = json.load(f)# 数据预处理# 预处理名字def precessname(name): name = name.lower().replace(' ', '_') name = name.replace('.', '_') name = name.
复制链接

扫一扫