neo4j导出csv后的格式清洗

由于Neo4j导出csv后的json格式不完整,固需要清洗。

 

PYTHON

清洗代码

import json;
import pandas as pd
import re
#此为刚导出的neo4j csv中的数据的json格式转换及清洗





#图数据库

rs=pd.read_csv('F:\dada\知识图谱\包图谱数据\关联库的构建\export (1) - t1.csv',encoding='utf-8')
p=rs['p']
v=rs['v']
p1=rs['p1']

for r in p:
    # print(r)

    r=r.replace("\\","").replace("\n","")#替换脏数据,干扰字符串的转义字符。去空格,避免json无法按行识别
    #给默认csv无json格式的转换为json字符串格式
    r=r.replace("\":","\":\"")#前
    r=r.replace(",\"","\",\"")#后
    r=r.replace("}","\"}")#末尾格式
    #去掉爬取错误的问题,描述极长的代码数据(大于300),并设置为longDescription

    #--------------------此行代码仅仅是在存在描述的时候才做的清洗
    if('description\"' in r):
        re_pattern='description":".*?","'
        description=re.search(re_pattern,r).group()
        if(len(description)>300):
            sub_pattern='description":".*?","'
            r=re.sub(sub_pattern,'description":"longDescription","',r)

    #------------------------

    print(r)
    json.loads(r)
    print("-----------==============")

清洗后

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值