python语料处理_Python中文语料批量预处理手记

手记实用系列文章:

语料预处理封装类:

#coding=utf-8

import os

import jieba

import sys

import re

import time

import jieba.posseg as pseg

sys.path.append("../")

jieba.load_userdict("../Database/userdict.txt") # 加载自定义分词词典

'''

title:利用结巴分词进行文本语料处理:单文本处理器、批量文件处理器

1 首先对文本进行遍历查找

2 创建原始文本的保存结构

3 对原文本进行结巴分词和停用词处理

4 对预处理结果进行标准化格式,并保存原文件结构路径

author:白宁超

myblog:http://www.cnblogs.com/baiboy/

'''

'''

分词.词性标注以及去停用词

stopwordspath: 停用词路径

dealpath:中文数据预处理文件的路径

savepath:中文数据预处理结果的保存路径

'''

def cutTxtWord(dealpath,savepath,stopwordspath):

stopwords = {}.fromkeys([ line.rstrip() for line in open(stopwordspath,"r",encoding='utf-8')]) # 停用词表

with open(dealpath,"r",encoding='utf-8') as f:

txtlist=f.read() # 读取待处理的文本

words =pseg.cut(txtlist) # 带词性标注的分词结果

cutresult=""# 获取去除停用词后的分词结果

for word, flag in words:

if word not in stopwords:

cutresult += word+"/"+flag+" " #去停用词

getFlag(cutresult,savepath) #

'''

分词.词性标注以及去停用词

stopwordspath: 停用词路径

read_folder_path :中文数据预处理文件的路径

write_folder_path :中文数据预处理结果的保存路径

filescount=300 #设置文件夹下文件最多多少个

'''

def cutFileWord(read_folder_path,write_folder_path,stopwordspath):

# 停用词表

stopwords = {}.fromkeys([ line.rstrip() for line in open(stopwordspath,"r",encoding='utf-8')])

# 获取待处理根目录下的所有类别

folder_list = os.listdir(read_folder_path)

# 类间循环

for folder in folder_list:

#某类下的路径

new_folder_path = os.path.join(read_folder_path, folder)

# 创建保存文件目录

path=write_folder_path+folder #保存文件的子文件

isExists=os.path.exists(path)

if not isExists:

os.makedirs(path)

print(path+' 创建成功')

else: pass

save_folder_path = os.path.join(write_folder_path, folder)#某类下的保存路径

print('--> 请稍等,正在处理中...')

# 类内循环

files = os.listdir(new_folder_path)

j = 1

for file in files:

if j > len(files): break

dealpath = os.path.join(new_folder_path, file) #处理单个文件的路径

with open(dealpath,"r",encoding='utf-8') as f:

txtlist=f.read()

# python 过滤中文、英文标点特殊符号

# txtlist1 = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。?、~@#¥%……&*()]+", "",txtlist)

words =pseg.cut(txtlist) # 带词性标注的分词结果

cutresult="" # 单个文本:分词后经停用词处理后的结果

for word, flag in words:

if word not in stopwords:

cutresult += word+"/"+flag+" " #去停用词

savepath = os.path.join(save_folder_path,file)

getFlag(cutresult,savepath)

j += 1

'''

做词性筛选

cutresult:str类型,初切分的结果

savepath: 保存文件路径

'''

def getFlag(cutresult,savepath):

txtlist=[] #过滤掉的词性后的结果

#词列表为自己定义要过滤掉的词性

cixing=["/x","/zg","/uj","/ul","/e","/d","/uz","/y"]

for line in cutresult.split('\n'):

line_list2=re.split('[ ]', line)

line_list2.append("\n") # 保持原段落格式存在

line_list=line_list2[:]

for segs in line_list2:

for K in cixing:

if K in segs:

line_list.remove(segs)

break

else:

pass

txtlist.extend(line_list)

# 去除词性标签

resultlist=txtlist[:]

flagresult=""

for v in txtlist:

if "/" in v:

slope=v.index("/")

letter=v[0:slope]+" "

flagresult+= letter

else:

flagresult+= v

standdata(flagresult,savepath)

'''

标准化处理,去除空行,空白字符等。

flagresult:筛选过的结果

'''

def standdata(flagresult,savepath):

f2=open(savepath,"w",encoding='utf-8')

for line in flagresult.split('\n'):

if len(line)>=2:

line_clean="/ ".join(line.split())

lines=line_clean+" "+"\n"

f2.write(lines)

else: pass

f2.close()

if __name__ == '__main__' :

t1=time.time()

# 测试单个文件

dealpath="../Database/SogouC/FileTest/1.txt"

savepath="../Database/SogouCCut/FileTest/1.txt"

stopwordspath='../Database/stopwords/CH_stopWords.txt'

stopwordspath1='../Database/stopwords/HG_stopWords.txt' # 哈工大停用词表

# 批量处理文件夹下的文件

# rfolder_path = '../Database/SogouC/Sample/'

rfolder_path = '../Database/SogouC/FileNews/'

# 分词处理后保存根路径

wfolder_path = '../Database/SogouCCut/'

# 中文语料预处理器

# cutTxtWord(dealpath,savepath,stopwordspath) # 单文本预处理器

cutFileWord(rfolder_path,wfolder_path,stopwordspath) # 多文本预处理器

t2=time.time()

print("中文语料语处理完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

执行结果:

python中文语料分词处理,按字或者词cut_sentence

cut_sentence.py import string import jieba import jieba.posseg as psg import logging #关闭jieba日制 jieb ...

Python中结巴分词使用手记

手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中 ...

基于CBOW网络手动实现面向中文语料的word2vec

最近在工作之余学习NLP相关的知识,对word2vec的原理进行了研究.在本篇文章中,尝试使用TensorFlow自行构建.训练出一个word2vec模型,以强化学习效果,加深理解. 一.背景知识: ...

wiki中文语料的word2vec模型构建

一.利用wiki中文语料进行word2vec模型构建 1)数据获取 到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...

python调用hanlp分词包手记

python调用hanlp分词包手记   Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类.流水线分词等功能.关于hanlp1.7版本的新功能,后 ...

word2vec词向量处理中文语料

word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间 ...

利用RNN进行中文文本分类(数据集是复旦中文语料)

利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) 1.训练词向量 数据预处理参考利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) ,现在我们有了分词 ...

【原】python中文文本挖掘资料集合

这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加:   1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7% ...

Eclipse搭建Python开发环境+Python中文处理

1.基本需求 1.Eclipse 集成开发环境下载 http://115.com/file/c2vz7io5    JDK6下载 http://115.com/file/c2vz7idq     2. ...

随机推荐

[Solution] ASP.NET Identity(2) 空的项目使用

在本节中,我将说明将ASP.NET Identity添加到现有的项目或者一个空项目.我将介绍你需要添加的Nuget和Class.此示例中,会使用LocalDB. 本节目录: 注册用户 登入登出 注册用 ...

在C#中开启事务

1.为什么要开启事务: 举一个简单的例子:在银行业务中,有一条记账原则,即又借有贷.为了保证这种原则,每发生一笔银行业务,就必须保证会计账目上借方科目和贷方科目至少个少一笔,并且这两笔要么同时成功,要 ...

(转载)顺序栈c++实现

(转载)http://myswirl.blog.163.com/blog/static/51318642200882310239324/ SqStack.h********************** ...

Select specified items from Tuple List

#Select specified items from Tuple List ##Select one item to form list `tupleList.Select(element =&g ...

WPF中静态引用资源与动态引用资源的区别

WPF中静态引用资源与动态引用资源的区别   WPF中引用资源分为静态引用与动态引用,两者的区别在哪里呢?我们通过一个小的例子来理解. 点击“Update”按钮,第2个按钮的文字会变成“更上一层楼”, ...

Lodop打印维护PRINT_SETUP本地缓存ini文件

针对千差万别的客户端,Lodop提供了打印维护(PRINT_SETUP),可以针对某个客户端微调,调整结果保存在客户端本地,不会影响其他访问网站的用户的使用. 打印维护使用方法:1.PRINT_INI ...

RTP推流及验证

[时间:2018-07] [状态:Open] [关键词:rtp,rtcp, ffmpeg,ffplay,sdp,h264,mp2,ts,推流] 近期在学习有关RTP/RTCP的资料,发现看了很多资料, ...

countdownlatch 和 CyclicBarrier 和 Semaphore

cdl用的是aqs,共享的是aqs那个volatile的state,阻塞线程列表用的也是aqs的 cb用的是reentrantlock+condition,当然rel用的也是aqs不过不同的是用的是互 ...

深入出不来nodejs源码-timer模块(C++篇)

终于可以填上坑了. 简单回顾一下之前JS篇内容,每一次setTimeout的调用,会在一个对象中添加一个键值对,键为延迟时间,值为一个链表,将所有该时间对应的事件串起来,图如下: 而每一个延迟键值对的 ...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值