一种经典的自然语言处理数据预处理方式

import sys
import os
import json
import re
import numpy as np
def PraseRawdata(author = None,constrain = None,src='./chinese-poetry/json/simplified', category="poet.tang"):
    def sentenceParse(para):
        res, num = re.subn(u'(.*)','',para)
        res,num = re.subn(u'{.*}','',res)
        res,num = re.subn(u'《.*》','',res)
        res,num = re.subn(u'[\]\[]','',res)
        r = ''
        for i in res:
            if i not in set('0123456789-'):
                r+=i
        r,num = re.subn(u'。。','。',r)
        return r
    def haddlejson(file):
        rst =[]
        data = json.loads(open(file).read())
        for poetry in data:
            pdata =""
            if(author is not None and poetry.get("author")!= author):
                return None
            p = poetry.get("paragraphs")
            flag = False
            for s in p:
                sp = re.split(u"[,!。]", s)
                for tr in sp:
                    if constrain is not None and len(tr) != constrain and len(tr) != 0:
                        flag = True
                        break
                    if flag:
                        break
            if flag:
                continue
            for 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值