python语料库是什么_Python 语料库的搭建

本文介绍了如何构建Python语料库,通过os.walk遍历文件夹,使用codecs.open读取文件内容,以UTF-8编码。示例代码展示了如何遍历指定目录,读取每个文件并将其内容存储到DataFrame中,从而创建一个语料库。
摘要由CSDN通过智能技术生成

语料库就是我们要分析文件的合计。

语料库构建

http://blog.csdn.net/happylife_haha/article/details/44566975

构建方法:

os.walk(fileDir)

fileDir 文件夹路径

文件读取:

codecs.open(filePath, method, encoding)

filePath 文件路径

method 打开方式,r 读, w 写, rw 读写;

encoding 文件的编码,打开方式UTF-8。

# -*- coding: utf-8 -*-

import os

import os.path

#导入OS模块

#定义

filePaths = []

for root, dirs, files in os.walk(

"D:\\PDM\\2.1\\SogouC.mini\\Sample"

):

for name in files:

filePaths.append(os.path.join(root, name))

import codecs

filePaths = [];

fileContents = [];

for root, dirs, files in os.walk(

"D:\\PDM\\2.1\\SogouC.mini\\Sample"

):

#遍历目录下所有的文件,

for name in files:

filePath = os.path.join(root, name);

filePaths.append(filePath);

#只读文件

f = codecs.open(filePath, 'r', 'utf-8')#打开文件

fileContent = f.read()

f.close()#关闭文件

fileContents.append(fileContent)

#构建语料库

import pandas;

corpos = pandas.DataFrame({

'filePath': filePaths,

'fileContent': fileContents

})

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值